2010,46(20)
1 引言
随着时代的发展,万维网(World Wide Web,WWW)已经
成为人们获取信息的一个重要来源。用户通常使用浏览器直
接查看网页,此外,还有许多基于互联网的信息处理工作(如
信息搜索、数据挖掘、机器翻译等),也以网页的信息内容为基
础数据进行开展。但是,在目前的互联网环境下,一个网页所
要表达的主题信息往往被广告链接、导航条、版权信息等“网
页噪音”所包围。如何准确、高效地提取网页的正文主题信息
已经成为当前网络信息应用和研究领域的一个重要课题,具
有很高的应用价值和实践意义。
本文介绍了一种基于特征文本密度的网页正文提取方
法,其算法复杂度低,而且对结构复杂的网页,包括多主题内
容段的网页的正文提取均有不错的效果。
2 相关工作
目前,关于网页正文提取方面的研究很多,国内外的研究
者从不同的角度提出了自己的解决思路。从大方向来说,主
要可分为两类,即基于包装器(wrapper)的方法以及利用网页
语义特征的方法。
利用包装器抽取网页正文是一种提出较早,也较为流行
的方法,后来出现的网页模板抽取技术也属于此类。它的原
理是通过构建包装器或网页模板规则,将符合规则的信息从
网页信息源中提取出来。研究者利用机器学习、DOM分析等
技术在模板构建技术方面做了大量的工作,使该方法的准确
率和效率得到了很大的提高。但无论怎样改进,该方法都存
在一个很大的缺点,即一个包装器或模板只能针对某一类特
定格式信息源,而构建它所需的信息模式识别知识的获取是
使用特征文本密度的网页正文提取
王少康 1,2,董科军 1,阎保平 1
WANG Shao-kang1,2,DONG Ke-jun1,YAN Bao-ping1
1.中国科学院 计算机网络信息中心,北京 100190
2.中国科学院 研究生院,北京 100049
1.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China
2.Graduate School of Chinese Academy of Sciences,Beijing 100049,China
E-mail:skwang@cnic.cn
WANG Shao-kang,DONG Ke-jun,YAN Bao-ping.Web content information extraction using density of feature text.Com-
puter Engineering and Applications,2010,46(20):1-3.
Abstract:The current web pages are getting more and more diverse,complex and non-standardized which makes the infor-
mation extraction more difficult,the paper proposes a web content information extraction method based on density of feature
text,which classifies the page text according to its usage and features,and constructs mathematical models to analyze the
text proportion