php网页正文提取,通用网页正文抓取工具_任意网页正文提取API

ArticleExtractor 智能提取任意网页正文内容

无需任何规则,输入目标内容面url地址(网站首页、列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容。 提取准确率达95% 以上。 您只需要接入我们的接口,就无需再为编写文章内容采集规则代码片段而苦恼了!

网页正文提取测试:

正文提取接口使用说明:

1、接口采用GET方式获取数据,如需要使用本接口,请联系我们!

2、请求参数

参数名

类型

必填

描述

默认值

url

string

要抽取正文的网页地址

3、php请求示例

$url = "http://sports.sohu.com/20161116/n473309013.shtml";//需要提取的内容页

#api接口地址

$apiurl = "http://";

$ch = curl_init();

$url = $apiurl.'/?type=json&url='.urlencode($url);

$header = array(

'apikey: ',

);

// 添加apikey到header

curl_setopt($ch, CURLOPT_HTTPHEADER , $header);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行HTTP请求

curl_setopt($ch , CURLOPT_URL , $url);

$res = curl_exec($ch);

$textArr=json_decode($res,true);

var_dump($textArr);

?>

4、返回数据格式说明

json格式的数据 {"err":0,"title":"文章标题","keywords":"关键词","description":"摘要","content":"正文内容"}

err的值的含义为,1:成功,0:失败。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值