cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关,十分佩服。

 

简述其主要思想如下:

1.将网页HTML文本去除其所有标签及脚本,得到粗糙正文块

2. 求行块字数的分布函数。

3.求该函数的骤升和骤降点,中间即为正文。

 

其中,行块是指,以第i行为轴,取其周围k行,为第i个行块。很简单是不是。

行块字数,是说第i个行块内的文本总字数。也很简单对不对。

 

对于已经去除标签的文本Ctext,只需要进行一遍扫描,就能求出从第1个行块 到 第n个行块的所有行块字数对不对?

 

而且,由于正文文本一般都有聚集性,而且正文文本块里的文字应该比其他地方的多对不对?

 

好吧,好吧 我们只需要从行块分布函数中找到骤升骤降点,然后两点之间的行块即为正文文本块,对不对?

 

ok,只需不到一百行代码,线性时间、不建DOM树、与HTML标签无关,正确率95%以上。

 

怎么样?

 

简单的事情总应该用最简单的方法来解决。

 

顶cx师兄!

 

ps: 整个系统代码及论文介绍在 http://code.google.com/p/cx-extractor/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值