php提取任意网页正文内容,php提取网页正文内容的例子

Adrian Gao

于 2021-04-13 20:58:31 发布

阅读量329

点赞数

文章标签： php提取任意网页正文内容

推荐：PHP官方Windows扩展列表发现很多学PHP的同学常常因为找不到PHP在windows下对应的扩展而抓破头，因此分享一下PHP Windows所有可以找到的扩展索引资源： PHP 5.2/5.3的Windows扩展索引站点：在这里你可以找到诸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows扩

因为难点在于如何去识别并保留网页中的文章部分，而且删除其它无用的信息，并且要做到通用化，不能像火车头那样根据目标站来制定采集规则，因为搜索引擎结果中有各种的网页。

抓回一个页面的数据，如何匹配出正文部分，郑晓在下班路上想了个思路是：

1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。

2. 直接匹配出非链接的、符合在div、p、h标签中的中文部分???

还是会有不少其它多余信息啊，比如底部信息等。。如何搞?不知道大家有木有什么思路或建议?

这个类是从网上找到的一个php实现的提取网页正文部分的算法，郑晓在本地也测试了下，准确率非常高。

使用起来也非常简单，实例化时传入网页的html源码和相应的编码，然后直接调用其getContent方法即可返回提取到的正文部分，提取出的文章中可能还会含有少部分链接，可以自己后期再修改

分享：修改php.ini中的max_input_vars参数限制提交的表单数量折腾了半天，发现了这个奥秘，原来php小版本升级引起的不兼容， php.ini 文件里的 max_input_vars 默认值为 1000，正常情况下够用，偶尔遇到我这种提交2000多个表单的情况还是比较少见的，不过，如果发现提交表单个数不全的情况，可以试试修改这个配置。修改后重启ph

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php提取任意网页正文内容,php提取网页正文内容的例子

推荐：PHP官方Windows扩展列表发现很多学PHP的同学常常因为找不到PHP在windows下对应的扩展而抓破头，因此分享一下PHP Windows所有可以找到的扩展索引资源： PHP 5.2/5.3的Windows扩展索引站点：在这里你可以找到诸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows扩因为...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。