信息采集及开源Boilerpipe简介

信息采集及开源Boilerpipe简介

敖立翔


信息采集


信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息采集部分是整个與情系统唯一的信息源,其好坏可以直接影响系统的运行效果和程序效率。



一个好的信息采集系统须具备以下特点:



一、覆盖广泛的信息源。信息来源广泛意味着抓取既覆盖了各种类型的网站,如新闻门户,行业网站,交互型的论坛,博客等,也全面囊括了每种类型的大多数知名网站。这样才能保证系统获得整个网络丰富全面的信息。



二、快速及时的抓取效率。由于與情的实时性特点,快速获取网络上第一手信息显得尤为重要。



三、准确的信息预处理。预处理首先需要去除无关信息。在抓取到的网页文件中,既有與情分析所需要的有价值的信息,也有大量与正文无关的广告、链接等无关信息,无关信息既影响系统运行效率,又造成分析准确度下降,需及时去除。其次,预处理还需要提取标题、来源、作者、发布时间、正文等有价值的内容,以保证功能整个與情系统的功能完善。




关于Nutch


NutchApache的一个TopLevelProject,其目标是建立一个Java写成的开源搜索引擎,其强大的CrawlerSearcher功能可以很好地满足信息获取的需要。


我们的系统使用Nutch作为信息采集部分的基础,并在其之上完善以下功能:超链分析、编码识别、URL去重、锚文本处理、无关信息过滤、关键词抽取、正文及标题抽取、发布时间抽取、来源抽取、自动摘要。


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值