php网页正文提取,通用网页正文抓取工具_任意网页正文提取API

最新推荐文章于 2021-03-19 14:28:53 发布

weixin_39714849

最新推荐文章于 2021-03-19 14:28:53 发布

阅读量340

点赞数

文章标签： php网页正文提取

ArticleExtractor 智能提取任意网页正文内容

无需任何规则，输入目标内容面url地址(网站首页、列表页面除外)，可轻松实现对任意新闻网页正文智能提取，并去除广告等与正文无关的内容。提取准确率达95% 以上。您只需要接入我们的接口，就无需再为编写文章内容采集规则代码片段而苦恼了！

网页正文提取测试：

正文提取接口使用说明：

1、接口采用GET方式获取数据，如需要使用本接口，请联系我们！

2、请求参数

参数名

类型

必填

描述

默认值

url

string

是

要抽取正文的网页地址

3、php请求示例

$url = "http://sports.sohu.com/20161116/n473309013.shtml";//需要提取的内容页

#api接口地址

$apiurl = "http://";

$ch = curl_init();

$url = $apiurl.'/?type=json&url='.urlencode($url);

$header = array(

'apikey: ',

);

// 添加apikey到header

curl_setopt($ch, CURLOPT_HTTPHEADER , $header);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行HTTP请求

curl_setopt($ch , CURLOPT_URL , $url);

$res = curl_exec($ch);

$textArr=json_decode($res,true);

var_dump($textArr);

?>

4、返回数据格式说明

json格式的数据 {"err":0,"title":"文章标题","keywords":"关键词","description":"摘要","content":"正文内容"}

err的值的含义为，1：成功，0：失败。

weixin_39714849

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php网页正文提取,通用网页正文抓取工具_任意网页正文提取API

ArticleExtractor 智能提取任意网页正文内容无需任何规则，输入目标内容面url地址(网站首页、列表页面除外)，可轻松实现对任意新闻网页正文智能提取，并去除广告等与正文无关的内容。提取准确率达95% 以上。您只需要接入我们的接口，就无需再为编写文章内容采集规则代码片段而苦恼了！网页正文提取测试：正文提取接口使用说明：1、接口采用GET方式获取数据，如需要使用本接口，请联系我们！2、...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。