有主题网页的信息提取算法

正文的提取:

    一篇有主题网页中的正文通常是用成段的文字来描述,中间通常不会加入大量的链接,而非正文信息通常是伴随超链接出现的。基于此,我们提出了正文选取的规则(正文规则)。

   正文规则:有主题网页中,如果一个内容块是 topic 类型的,则该内容块中的内容为正文的一部分。

   依据正文规则,深度优先遍历标签树并以此记录 topic 类型的内容块,就得到该网页的正文,也就是该网页的主题内容。

 

 

 

      对web上的网页,我们依据网页类型可以将它们分为 3 类: 有主题网页(topic), Hub网页(超链接聚集的门户网站),图片网页。针对三类网页的信息提取算法各不相同,因此在对网页进行深入分析之前,首先要判断网页的类型。为此,我们首先描述这三类网页的特征及判断方法,然后将对 面向有主题网页 的模型提取算法进行详细讨论,最后简要介绍 面向Hub网页 和 面向图片网页 的提取算法。

      1.网页类型的判断方法

      视觉上区分三种类型的网页是很明显的。在有主题网页中通过成段的描述文字描述了一件或多件事物,虽然也会有图片和超链接,但这些图片和超链接并不是网页的主题。图片网页中的内容是通过图片体现的,而文字仅仅是对图片的一个说明,因而文字不多。Hub网页通常不会描述一件事物,而是提供指向相关网页的超链接,因此,Hub网页中的超链接密集。

      虽然时间上判断网页的类型是比较容易的,但是让计算机自动做到这一点却是不容易的。下述的良好方法可以在绝大多数情况下准确的识别网页的类型。网页都是有一定布局的,比

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值