摘要:
HTML网页正文信息抽取功能已经成为目前很多互联网应用的基础工作和亟待解决的问题.HTML网页所要表达的"正文"信息通常会包含在"噪音"信息中.我们在浏览网页的时候经常会发现两部分内容:一部分内容体现的是网页的正文信息,比如一份简历网页中的简历部分,我们称之为"正文"内容:另一部分则是与网页正文信息无关的导航条,广告信息,版权信息等内容,我们称之为"噪音"信息.大量噪音信息的存在使得用户很难迅速获取主题信息,为了解决这一问题,如何快速,准确地抽取出网页正文信息是影响互联网应用服务质量的关键技术之一. HTML网页正文信息抽取通常采用的是一种归纳学习的方法,从给定的网页训练样本中学习抽取规则,这种方法虽然能够准确地抽取出正文信息,但是当网站的模板发生改变后,必须重新学习抽取规则,随着模板数量的不断增长,这种抽取器的维护成本会越来越高,而且适应性也会很差. 本文的方法是基于文档对象模型规范,把网页的HTML代码表示成一棵DOM树,遍历整个DOM树,根据每一个节点的主题相关度以及该节点上下文的主题相关度来对内容块进行判定.依据此判定方法判定出要抽取的信息,并删除掉无关的信息,最后输出只含有正文信息的HTML文档.此后,有人提出在判断内容块时,可以考虑增加判断内容块的上下文环境,使判定结果更加合理.利用这种思想,本文在抽取算法中增加了对节点上下文的判定,能够更加准确地抽取出正文信息.同时,本方法不依赖于网页的模板信息,是一种通用的正文信息抽取方法.最后,实验结果也证明了本方法的准确性和有效性.
展开