html标记的嵌套是树状结构,浅谈搜索引擎的网页文档结构化

对于搜

b8da0d6b116ba0d119a95a35c319c327.png

为了不断章取义,首先要对几个常见的术语加以或者重写认识和理解。

1、半结构化数据

互联网上的数据,一般都是以网页为载体表现,那万维网的网页是具有一定的结构性,这种结构性的表现是基于html标记语言。这种网页原始数据被称为“半结构化数据”。

2、网页数据的信息抽取

对于半结构化的数据,是不能满足网页结构化的需要。那首要的工作是分门别类的从半结构化网页中抽取出有价值的能够代表网页的属性。

3、锚文本

或许看到这里的时候,会有人抱怨,这个你也需要解释。这都是一下最基础的知识!我会选择沉默,但请你看完之后在下定论。网页中关于链接的一段描述,通常以文本和图片的方式出现。以链接的方式可以指向文中的某个位置,也可以指向其他网页。或许这样的认识,对于你在其他地方看到的理解有些不同吧。细心的人,总是能超越别人很多的。

通过以上几个术语的学习,我们要开始进入搜索引擎结构化数据的大门,从而通过这些基础理论知识指导我们如何做好网页文档。网页抽取信息中,提到了几个重要的因素,下面先从这里开始谈起:

1.标题:title包含了网页的基本含义,和锚文本相同的是,都是用来描述网页的内容的属性。

2.正文标题:在html网页中,

标签中的文字没有任何描述能力,因而并不是合格的标题,为此需要抽取正文中的适当文字作为正文标题。

3.锚文本:除了网页标题可以描述网页以外,还会有一些锚文本来描述它,特别是对于某些没有标题的网页,锚文本是最有益的补充。

4.正文:锚文本、标题和正文标题都是网页的简短描述,而正文是一个网页的主题内容,它完整的表述了网页的主题内容,一般出现在

等。

5.正向链接:正向链接是引导用户继续在网上冲浪的链接,这些链接的文字也是其他网页的锚文本。一个网页至少包含这5个属性。

我相信,通过这里的学习,大家已经对网页文档的构建和理解,都会有所新的认识。之前的那种为什么标题是重要

搜索引擎的网页文档结构化

搜索引擎的网页结构化的过程一般可以理解为两步走:第一建立HTML标签树,第二通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

首先我们来看一下建立HTML标签树是怎么实现

由于HTML标签有一定的嵌套关系,因此通过一定的技术手段整理一个网页的所有html标签,就会得到的是树状结构。这就是建立HTML标签树。

再看第二通过投票方法识别正文的文本

通过建立标签书的实现,正文就具有了分块保存的特性,因此引入文本块的概念。一般来说网页会出现3种类型的文本块。

(1)主题型文本块

是指大段文字的文本块,例如

(2)目录型文本块

是指描述链接的文本块,例如

(3)图片型文本块

是描述图片的文本块,例如 目录型文本块和图片型文本块容易识别。

如何判读那个文本块是正文,常规的采用手法是"投票

剩下的工作就是采用深度优先遍历标签树依次记录主题类型的文本块,即可得到该网页的正文。

恭喜你,能看完这篇帖子,我相信认真阅读的人,都会有所收获,或许是好的,也有可能是“坏的”?对于认真的学习的人,一定会在今后的网页构建中有新的认识。也至于不被有些“网上的大神所忽悠”,基于这样的常识,你一定会有不同的SEO思维。如果各位还想继续学习这方面的知识, 鄙人觉得可以看看“链接分析”和“中文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值