基于html结构特征提取,结合网页结构特征与内容特征的正文提取

weixin_39652658

于 2021-06-19 08:23:06 发布

阅读量348

点赞数

文章标签：基于html结构特征提取

摘要：

为了方便人们的阅读习惯,网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条,相关链接和商业广告等信息.无关信息的存在,对网页的检索,存储以及分类都会带来负面的影响.如何将正文从充满了无关信息的网页中提取出来,成为对网页进行充分利用的关键. 网页正文提取成为当前研究的热点,并且,已有许多国内外学者提出了不同的提取方法,但这些方法也存在着一些不足:基于统计的方法由于重点关注网页的统计信息,很少利用网页的结构特征,提取的准确率往往不高;基于DOM的方法复杂度较高,对网页的规范化要求比较严格,对书写不规范的网页的解析将不会彻底,有时候甚至在解析的过程中发生崩溃;基于视觉特征的提取方法尽管能满足复杂页面的要求,然而,由于视觉特征复杂多样,因此,实现起来较为复杂. 针对上述问题,本文通过对大量网页进行研究,从网页的结构特征和内容特征出发,试图找出一种通用的,能够快速准确的对网页正文部分内容进行提取的方法,主要内容包括: ①通过网页的URL地址从互联网上下载网页,将网页源码以字符串的形式保存,利用正则表达式完成对网页中与正文无关的元素的过滤.分析网页的结构特征,利用HTML中的容器标签对网页进行线性分块,避免了网页标签之间的嵌套关系. ②利用分块之后各块中文本以及标点符号分布的内容特征,将其分别划分为文本块与链接块.其中,文本块主要存在与网页正文部分,而链接块通常位于网页的"噪音"部分. ③网页中"噪音"内容通常是连续出现的,根据这个特点,首先找出文本块中文本长度最大的块.在此块的基础上,对块序列向前和向后查找连续出现的链接块作为正文部分的边界,提取其中的内容作为网页的正文内容. 最后,为了验证文中提出方法的有效性,本文设计并实现了一个网页正文提取的原型系统.通过一系列实验进行对比说明,本文所提出方法能够快速,准确的提取网页中的正文部分内容.

展开

weixin_39652658

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于html结构特征提取,结合网页结构特征与内容特征的正文提取

摘要：为了方便人们的阅读习惯,网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条,相关链接和商业广告等信息.无关信息的存在,对网页的检索,存储以及分类都会带来负面的影响.如何将正文从充满了无关信息的网页中提取出来,成为对网页进行充分利用的关键. 网页正文提取成为当前研究的热点,并且,已有许多国内外学者提出了不同的提取方法,但这些方法也存在着一些不足:基于统计的方...
复制链接

扫一扫

基于html结构特征提取,结合网页结构特征与内容特征的正文提取

“相关推荐”对你有帮助么？