信息采集及开源Boilerpipe简介

uestcfrog

于 2011-10-16 14:58:53 发布

阅读量8.8k

点赞数 1

分类专栏： Nutch Information Extraction Data Mining 文章标签：搜索引擎数据挖掘工作算法文档 filter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uestcfrog/article/details/6877832

版权

信息采集系统采用Nutch作为基础，利用Boilerpipe进行正文提取。Boilerpipe通过训练分类器判断TextBlock，过滤无关信息，提高與情分析效率。后续将集成Boilerpipe到Nutch中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息采集及开源Boilerpipe简介

敖立翔

信息采集

信息采集部分是與情分析系统的先导部分，负责抓取各个网站的與情信息，并进行初步的分析处理，去除网页中无关信息，提取标题、来源、作者、发布时间、正文等有用信息，作为之后與情分析的基础。由于信息采集部分是整个與情系统唯一的信息源，其好坏可以直接影响系统的运行效果和程序效率。

一个好的信息采集系统须具备以下特点：

一、覆盖广泛的信息源。信息来源广泛意味着抓取既覆盖了各种类型的网站，如新闻门户，行业网站，交互型的论坛，博客等，也全面囊括了每种类型的大多数知名网站。这样才能保证系统获得整个网络丰富全面的信息。

二、快速及时的抓取效率。由于與情的实时性特点，快速获取网络上第一手信息显得尤为重要。

三、准确的信息预处理。预处理首先需要去除无关信息。在抓取到的网页文件中，既有與情分析所需要的有价值的信息，也有大量与正文无关的广告、链接等无关信息，无关信息既影响系统运行效率，又造成分析准确度下降，需及时去除。其次，预处理还需要提取标题、来源、作者、发布时间、正文等有价值的内容，以保证功能整个與情系统的功能完善。

关于Nutch

Nutch是Apache的一个TopLevelProject，其目标是建立一个Java写成的开源搜索引擎，其强大的Crawler和Searcher功能可以很好地满足信息获取的需要。

我们的系统使用Nutch作为信息采集部分的基础，并在其之上完善以下功能：超链分析、编码识别、URL去重、锚文本处理、无关信息过滤、关键词抽取、正文及标题抽取、发布时间抽取、来源抽取、自动摘要。

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。