Boilerplate Detection Using Shallow Text Features论文小笔记

最新推荐文章于 2024-04-21 14:36:19 发布

jollyjumper

最新推荐文章于 2024-04-21 14:36:19 发布

阅读量1.8k

点赞数

分类专栏：算法自然语言处理数据挖掘机器学习搜索引擎文章标签： boilerplate removal template detection full-text extraction shallow text feature 决策树

本文链接：https://blog.csdn.net/jollyjumper/article/details/18747121

版权

搜索引擎同时被 3 个专栏收录

45 篇文章 0 订阅

订阅专栏

算法

18 篇文章 0 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.

昨天晚上在网上看到这个东西:

http://code.google.com/p/boilerpipe/

很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过正文抽取,当时完全按照别人的做法做,感觉思路很乱又要吹得多nb,当时也没有任何机器学习的知识,也就是抽取一些特定网站罢了,并不严谨.后来在yy网,是一个相熟的同事做的,直接用在index pipeline,应该做的不错,以为很高深没有细问...老实说,我觉得他可能是基于这个东西或者相关论文做的!

还没看代码,从google code页面点了作者(是个德国人)的论文:http://www.l3s.de/~kohlschuetter/boilerplate/

既然是shallow text features,就不选取ngram这些token level,主要是受主题,语言影响太大,训练样本不容易收齐.也不选择render之后抽取特征,因为要关联css等,还要渲染,复杂度,性能是个问题;也不选择site level.

shallow text features主要是文字稠密度,链接稠密度,平均每行word数等等,还有邻接块的这些feature,作者用决策树(或SVM)进行学习,发现选用text density,link density六个feature(包括cur,prev,next三块,所以总共六个),以及link density,numwords六个features能达到很好的结果,当然使用全部feature最后效果是最好的.

jollyjumper

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Boilerplate Detection Using Shallow Text Features论文小笔记

网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.昨天晚上在网上看到这个东西:http://code.google.com/p/boilerpipe/很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过
复制链接

扫一扫

专栏目录