目前互联网上公布出来的正文提取算法，大家可以综合比较下

hanyu332

于 2010-12-04 14:47:00 发布

阅读量712

点赞数

文章标签：互联网算法资讯测试

　正文一般应该是网页中最长的部分，如何抽取正文，这部分是最为核心的。因为如果不能很好的提取原有文章的内容和样式，那么搜索出来的东西就会惨不忍睹．根本就没有使用价值。

　　在做正文抽取模块之前曾经参考过很多抽取模式，有配置模版的，有搞视觉匹配的．有搞关键字识别的．挨个做了分析首先配置摸版是不太现实的，因为在搜索技术资讯的时候，根本不知道会搜索到哪个网站，也根本没精力去配置摸版。所以这个行不通。基于视觉效果的分析，这个难度比较大，而且只适合于规范的网站，而现在很多网站根本不规范，广告链接漫天飞．人家都把最好的位置留给广告了．而且我一直怀疑这个模式的可行性，它只是一个善意的推测．所以这方面没做过多尝试。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

目前互联网上公布出来的正文提取算法，大家可以综合比较下，一起来测试下哪个更好用。

词网--北京词网科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex

猎兔网页正文提取
http://www.lietu.com/extract/

PHP版网页正文提取
http://www.woniu.us/get_content_demo/

网页正文提取分析(DEMO)
http://61.128.196.27/txt

个人认为http://61.128.196.27/txt 这个提取最牛，基本上无论什么页面都能提取出来，而且能有效的保持原文风格、图片、链接。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。