信息采集及开源Boilerpipe简介
信息采集
信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息采集部分是整个與情系统唯一的信息源,其好坏可以直接影响系统的运行效果和程序效率。
一个好的信息采集系统须具备以下特点:
一、覆盖广泛的信息源。信息来源广泛意味着抓取既覆盖了各种类型的网站,如新闻门户,行业网站,交互型的论坛,博客等,也全面囊括了每种类型的大多数知名网站。这样才能保证系统获得整个网络丰富全面的信息。
二、快速及时的抓取效率。由于與情的实时性特点,快速获取网络上第一手信息显得尤为重要。
三、准确的信息预处理。预处理首先需要去除无关信息。在抓取到的网页文件中,既有與情分析所需要的有价值的信息,也有大量与正文无关的广告、链接等无关信息,无关信息既影响系统运行效率,又造成分析准确度下降,需及时去除。其次,预处理还需要提取标题、来源、作者、发布时间、正文等有价值的内容,以保证功能整个與情系统的功能完善。
关于Nutch
Nutch是Apache的一个TopLevelProject,其目标是建立一个Java写成的开源搜索引擎,其强大的Crawler和Searcher功能可以很好地满足信息获取的需要。
我们的系统使用Nutch作为信息采集部分的基础,并在其之上完善以下功能:超链分析、编码识别、URL去重、锚文本处理、无关信息过滤、关键词抽取、正文及标题抽取、发布时间抽取、来源抽取、自动摘要。