目前互联网上公布出来的正文提取算法,大家可以综合比较下

 正文一般应该是网页中最长的部分,如何抽取正文,这部分是最为核心的。因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西就会惨不忍睹.根本就没有使用价值。

  在做正文抽取模块之前曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.挨个做了分析首先配置摸版是不太现实的,因为在搜索 技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版。所以这个行不通。基于视觉效果的分析,这个难度比较大,而且只适合于规范的网站, 而现在很多网站根本不规范,广告链接漫天飞.人家都把最好的位置留给广告了.而且我一直怀疑这个模式的可行性,它只是一个善意的推测.所以这方面没做过多 尝试。


========================================

目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。


词网--北京词网科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex


猎兔网页正文提取
http://www.lietu.com/extract/


PHP版网页正文提取
http://www.woniu.us/get_content_demo/


网页正文提取分析(DEMO)
http://61.128.196.27/txt


个人认为http://61.128.196.27/txt 这个提取最牛,基本上无论什么页面都能提取出来,而且能有效的保持原文风格、图片、链接。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值