Boilerplate Detection Using Shallow Text Features论文小笔记

18 篇文章 0 订阅
13 篇文章 0 订阅

网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.

昨天晚上在网上看到这个东西:

http://code.google.com/p/boilerpipe/

很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过正文抽取,当时完全按照别人的做法做,感觉思路很乱又要吹得多nb,当时也没有任何机器学习的知识,也就是抽取一些特定网站罢了,并不严谨.后来在yy网,是一个相熟的同事做的,直接用在index pipeline,应该做的不错,以为很高深没有细问...老实说,我觉得他可能是基于这个东西或者相关论文做的!

还没看代码,从google code页面点了作者(是个德国人)的论文:http://www.l3s.de/~kohlschuetter/boilerplate/

既然是shallow text features,就不选取ngram这些token level,主要是受主题,语言影响太大,训练样本不容易收齐.也不选择render之后抽取特征,因为要关联css等,还要渲染,复杂度,性能是个问题;也不选择site level.

shallow text features主要是文字稠密度,链接稠密度,平均每行word数等等,还有邻接块的这些feature,作者用决策树(或SVM)进行学习,发现选用text density,link density六个feature(包括cur,prev,next三块,所以总共六个),以及link density,numwords六个features能达到很好的结果,当然使用全部feature最后效果是最好的.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值