cx-extractor：基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

最新推荐文章于 2024-04-18 09:41:43 发布

red4711

最新推荐文章于 2024-04-18 09:41:43 发布

阅读量4.9k

点赞数

文章标签： html 脚本算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/red4711/article/details/6365087

版权

今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关，十分佩服。

简述其主要思想如下：

1.将网页HTML文本去除其所有标签及脚本，得到粗糙正文块

2. 求行块字数的分布函数。

3.求该函数的骤升和骤降点，中间即为正文。

其中,行块是指，以第i行为轴，取其周围k行，为第i个行块。很简单是不是。

行块字数，是说第i个行块内的文本总字数。也很简单对不对。

对于已经去除标签的文本Ctext，只需要进行一遍扫描，就能求出从第1个行块到第n个行块的所有行块字数对不对？

而且，由于正文文本一般都有聚集性，而且正文文本块里的文字应该比其他地方的多对不对？

好吧，好吧我们只需要从行块分布函数中找到骤升骤降点，然后两点之间的行块即为正文文本块，对不对？

ok，只需不到一百行代码，线性时间、不建DOM树、与HTML标签无关，正确率95%以上。

怎么样？

简单的事情总应该用最简单的方法来解决。

顶cx师兄！

ps：整个系统代码及论文介绍在 http://code.google.com/p/cx-extractor/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
cx-extractor：基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

<br />今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关，十分佩服。<br /> <br />简述其主要思想如下：<br />1.将网页HTML文本去除其所有标签及脚本，得到粗糙正文块<br />2. 求行块字数的分布函数。<br />3.求该函数的骤升和骤降点，中间即为正文。<br /> <br />其中,行块是指，以第i行为轴，取其周围k行，为第i个行块。很简单是不是。<br />行块字数，是说第i个行块内的文本总字数。也很简单对不对。<br /> <br />
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。