基于行块分布函数的通用网页正文抽取

最新推荐文章于 2022-01-11 21:21:32 发布

weixin_33895604

最新推荐文章于 2022-01-11 21:21:32 发布

阅读量89

点赞数

转自：http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

简述：

对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》，首次将网页正文抽取问题转化为求页面的行块分布函数，这种方法不用建立Dom树，不被病态HTML所累（事实上与HTML标签完全无关）。通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多，在法。

项目网址：http://code.google.com/p/cx-extractor/

算法描述：基于行块分布函数的网页正文抽取算法.pdf

欢迎大家提出意见~

weixin_33895604

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于行块分布函数的通用网页正文抽取

转自：http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关简述：对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。