1引言随着互联网的快速发展,Web数据已覆盖经济、政治、文化等现实世界的各个领域,构成很多应用的重要信息来源.因包含大量的与正文无关的导航信息、广告文字、版权说明和相关链接等内容,网页数据呈现结构混杂且多具有异构和动态的特点.Gibson等[1]估计布局外观因素构成互联网40%50%的内容,并以每年6%的速度持续增长.网页正文抽取成为大量应用必不可少的支撑技术.个人数字终端的应用中,为便于小屏幕浏览网页,抽取网页正文内容以调整页面大小被广泛采用[2].RSS推送、信息检索、问答系统等领域使用正文抽取排除无关词的干扰,能有效提高系统的性能[3].自然语言处理领域构建语料库消耗大量的人力、物力和财力,抽取网络中海量的、真实的文本为自动构建语料库提供有效途径[4].目前网页正文抽取常用的方法主要有基于模板、基于机器学习和基于统计3类方法.手工编写规则形成模板是正文抽取最早的方法.Adelberg[5]查找HTML启发信息抽取固定模板的网页正文.Kang等[6]清除过剩标签,使用特定模式匹配抽取新闻篇章.自动检测模板的方法随之发展起来.杨少华等[7]提出Compute_CTokens和Construct_Template两个算法来检测新的未知模板.Kohlschtter等[8]分析少量的表层文本特征探测模板.机器学习被广泛用于正文抽取.Song等[9]采用神经网络和支持向量机区分网页块的重要性,发现超链接数在42个特征中最具区分能力.Gibson等[10]使用条件随机场标记网页的标签序列是正文或非正文.Ziegler等[11]从文本块中抽取语言和结构特征,采用粒子群优化算法学习特征阈值.Pasternack等[12]提出基于字符序列统计数据而非特定的HTML标签.统计方法抽取正文也被深入研究.Finn等[13]提出BTE(BodyTextExtraction)算法,将网页作为字和标签序列,抽取包含词最多和标签最少的单一、连续的内容.Pinto等[14]提出DSC(DocumentSlopeCurves)算法,采用窗口改善Finn的方法实现多正文抽取.Mantratzis等[15]提出LQE(LinkQuotaFilters)算法,通过超链接识别链接目录和导航元素.Debnath等[16]提出FE(FeatureExtractor)算法,选择具有一定特征的文本、图像和脚本代码的内容块.Gottron等[17]提出CCB(ContentCodeBlurring)算法,内容块的选择相同格式的源代码字符序列.Weninger等[18]提出CETR(ContentExtractionviaTagRatios)算法,计算HTML文档行的文本-标签比和邻近行的变化率,使用聚类的方法抽取正文.面对Web技术的不断更新,现有抽取网页正文的算法局限性逐渐显现.网页动态内容增多,基于模板的方法面临网站结构繁多且多变的挑战,手动编写规则或自动发现新模板及模板维护将是巨大的工程.机器学习的分类器局限于结构类似于训练样本,当网页结构发生较大变化时,需重新标注训练集和重复训练.基于统计方法无需维护模板或标记数据集,算法执行效率高,对不同类型数据具有较好的适应性,缺点是综合利用多特征信息的能力不强,抽取正文的准确率较低,同时,随着CSS表单的广泛使用,传统采用如等HTML标签为启发信息的算法性能极大降低.本文是面向Web语料挖掘技术研究的组成部分,网页正文内容界定为新闻报道主题内容的全部字符.网页中相关导航、广告文字、版权说明和网页评论都属于噪声部分.通过对不同类型新闻网页分析,存在两
文本密度 php,基于文本密度模型的Web正文抽取
最新推荐文章于 2021-05-06 09:33:55 发布