基于html结构特征提取,结合网页结构特征与内容特征的正文提取

摘要:

为了方便人们的阅读习惯,网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条,相关链接和商业广告等信息.无关信息的存在,对网页的检索,存储以及分类都会带来负面的影响.如何将正文从充满了无关信息的网页中提取出来,成为对网页进行充分利用的关键. 网页正文提取成为当前研究的热点,并且,已有许多国内外学者提出了不同的提取方法,但这些方法也存在着一些不足:基于统计的方法由于重点关注网页的统计信息,很少利用网页的结构特征,提取的准确率往往不高;基于DOM的方法复杂度较高,对网页的规范化要求比较严格,对书写不规范的网页的解析将不会彻底,有时候甚至在解析的过程中发生崩溃;基于视觉特征的提取方法尽管能满足复杂页面的要求,然而,由于视觉特征复杂多样,因此,实现起来较为复杂. 针对上述问题,本文通过对大量网页进行研究,从网页的结构特征和内容特征出发,试图找出一种通用的,能够快速准确的对网页正文部分内容进行提取的方法,主要内容包括: ①通过网页的URL地址从互联网上下载网页,将网页源码以字符串的形式保存,利用正则表达式完成对网页中与正文无关的元素的过滤.分析网页的结构特征,利用HTML中的容器标签对网页进行线性分块,避免了网页标签之间的嵌套关系. ②利用分块之后各块中文本以及标点符号分布的内容特征,将其分别划分为文本块与链接块.其中,文本块主要存在与网页正文部分,而链接块通常位于网页的"噪音"部分. ③网页中"噪音"内容通常是连续出现的,根据这个特点,首先找出文本块中文本长度最大的块.在此块的基础上,对块序列向前和向后查找连续出现的链接块作为正文部分的边界,提取其中的内容作为网页的正文内容. 最后,为了验证文中提出方法的有效性,本文设计并实现了一个网页正文提取的原型系统.通过一系列实验进行对比说明,本文所提出方法能够快速,准确的提取网页中的正文部分内容.

展开

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值