ArticleExtractor 智能提取任意网页正文内容
无需任何规则,输入目标内容面url地址(网站首页、列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容。 提取准确率达95% 以上。 您只需要接入我们的接口,就无需再为编写文章内容采集规则代码片段而苦恼了!
网页正文提取测试:
正文提取接口使用说明:
1、接口采用GET方式获取数据,如需要使用本接口,请联系我们!
2、请求参数
参数名
类型
必填
描述
默认值
url
string
是
要抽取正文的网页地址
3、php请求示例
$url = "http://sports.sohu.com/20161116/n473309013.shtml";//需要提取的内容页
#api接口地址
$apiurl = "http://";
$ch = curl_init();
$url = $apiurl.'/?type=json&url='.urlencode($url);
$header = array(
'apikey: ',
);
// 添加apikey到header
curl_setopt($ch, CURLOPT_HTTPHEADER , $header);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// 执行HTTP请求
curl_setopt($ch , CURLOPT_URL , $url);
$res = curl_exec($ch);
$textArr=json_decode($res,true);
var_dump($textArr);
?>
4、返回数据格式说明
json格式的数据 {"err":0,"title":"文章标题","keywords":"关键词","description":"摘要","content":"正文内容"}
err的值的含义为,1:成功,0:失败。