网页正文提取算法介绍

最新推荐文章于 2022-03-16 20:06:17 发布

weixin_30914981

最新推荐文章于 2022-03-16 20:06:17 发布

阅读量202

点赞数

文章标签： c# php javascript ViewUI

原文链接：http://www.cnblogs.com/phoenixnudt/articles/2382140.html

版权

查找发现了两个比较好的网页正文提取算法：

国内：哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/，效果为亲测，文章中呈准确率95%以上，对1000个网页抽取耗时21.29秒。看了文章感觉不错，无需html解析，效率应该会高些。
国外：大名鼎鼎的arc90实验室的Readability，该算法已经商业化实现了firefox,chrome插件，及flipboard，并且已经集成进了safari浏览器。未详细测试，大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树，因此稍执行效率稍微慢一些。大致过程为，先解析DOM树，所有标签小写。然后去除所有“script”标签内容，再通过一对正则表达式的配合提取。具体算法还未看。其插件中包含算法JAVASCRIPT源码。有热心人士已将其用c#和php实现，源码地址如下:
1. 官方网站http://www.readability.com/
2. c#实现一：https://github.com/marek-stoj/NReadability（亲测，效果不错）
3. c#实现二：http://code.google.com/p/nreadability/（未亲测）　
4. php实现一:　http://code.fivefilters.org/p/php-readability/(未亲测)
5. php实现二:https://github.com/feelinglucky/php-readability(未亲测)作者主页:http://www.gracecode.com/archives/3061/
6. node.js版：https://github.com/arrix/node-readability/（未亲测）

转载于:https://www.cnblogs.com/phoenixnudt/articles/2382140.html

weixin_30914981

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页正文提取算法介绍

查找发现了两个比较好的网页正文提取算法：国内：哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/，效果为亲测，文章中呈准确率95%以上，对1000个网页抽取耗时21.29秒。看了文章感觉不错，无需html解析，效率应该会高些。国外：大名鼎鼎的arc90实验室的Readability，该算法已经商业化...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。