网页分析算法

文章介绍了网页分析的三种类型:基于网络拓扑、网页内容和用户访问行为,详细讨论了PageRank和HITS等链接分析算法,以及网站粒度和网页块粒度的分析方法。此外,文章还探讨了分布式搜索引擎蜘蛛的局域网和广域网架构,以及主从模式、自治模式和混合模式的通信方式。
摘要由CSDN通过智能技术生成

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用

户访问行为三种类型。

4.1、基于网络拓扑的分析算法

基于网页之间的链接,通过已知的网页或数据,来对与其有直接

或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又

分为网页粒度、网站粒度和网页块粒度这三种。

4.1.1、网页粒度的分析算法

PageRank 和 HITS 算法是最常见的链接分析算法,两者都是通过

对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。

PageRank 算法虽然考虑了用户访问行为的随机性和 Sink 网页的存在,

但忽略了绝大多数用户访问时带有目的性,即网页和链接与

查询主题的相关性。针对这个问题,HITS 算法提出了两个关键的

概念:权威型网页(authority)和中心型网页(hub)。

基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很

多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断

了在当前路径上的抓取行为。部分文献提出了一种基于反向链接

(BackLink)的分层式上下文模型(ContextModel),用于描述指向

目标网页一定物理跳数半径内的网页拓扑图的中心 Layer0 为目标网

页,将网页依据指向目标网页的物理跳数进行层次 划 分,从 外 层网页

指向内层网页的链接称 为反向链接。

4.1.2、网站粒度的分析算法

网 站 粒 度 的 资 源 发 现 和 管 理 策 略 也 比 网 页 粒 度 的 更 简 单 有 效 。 网

站 粒 度 的 爬 虫 抓 取 的 关 键 之 处 在 于 站 点 的 划 分 和 站 点 等 级 (SiteRank)

的 计 算 , SiteRank 的 计 算 方 法 与 PageRank 类 似 , 但 是 需 要 对 网 站 之

间 的 链 接 作 一 定 程 度 抽 象 , 并 在 一 定 的 模 型 下 计 算 链 接 的 权 重 。

网 站 划 分 情 况 分 为 按 域 名 划 分 和 按 IP 地 址 划 分 两 种 。一 些 文 献 讨

论 了 在 分 布 式 情 况 下 , 通 过 对 同 一 个 域 名 下 不 同 主 机 、 服 务 器 的 IP

地 址 进 行 站 点 划 分 , 构 造 站 点 图 , 利 用 类 似 PageRank 的 方 法 评 价

SiteRank。 同 时 , 根 据 不 同 文 件 在 各 个 站 点 上 的 分 布 情 况 , 构 造 文 档

图 ,结 合 SiteRank 分 布 式 计 算 得 到 DocRank。利 用 分 布 式 的 SiteRank

计 算 , 不 仅 大 大 降 低 了 单 机 站 点 的 算 法 代 价 , 而 且 克 服 了 单 独 站 点 对

整 个 网 络 覆 盖 率有 限的 缺点 。 附带的 一 个 优点 是 , 常见PageRank 造

假难以对 SiteRank 进 行 欺骗。

4.1.3、 网 页 块粒 度 的 分 析算 法

在 一 个 页 面中, 往往含有 多个 指向其他页 面的 链 接 , 这些 链 接 中

只有 一 部分 是 指向主 题相关 网 页 的 ,或根 据 网 页 的 链 接 锚文 本表明其

具有 较高重 要 性。 但 是 , 在 PageRank 和 HITS 算 法 中, 没有 对 这些 链

接 作 区分 , 因此常常给网 页 分 析带来广告等 噪声链 接 的 干扰。 在 网 页

块级 别(Blocklevel)进 行 链 接 分 析的 算 法 的 基本思想是 通 过 VIPS 网

页 分 割算 法 将网 页 分 为 不 同 的 网 页 块(pageblock), 然后对 这些 网 页

块建立pagetoblock 和 blocktopage 的 链 接 矩阵, 分 别记为 Z 和 X。

于 是 , 在 pagetopage 图 上 的 网 页 块级 别的 PageRank 为 W(p)=X×Z;

在 blocktoblock 图 上 的 BlockRank 为 W(b)=Z×X。 已经有 人实现 了

块级别的PageRank 和HITS 算法,并通过实验证明,效率和准确率都

比传统的对应算法要好。

4.2、基于网页内容的网页分析算法

基于网页内容的分析算法指的是利用网页内容(文本、数据等资

源)特征进行的网页评价。网页的内容从原来的以超文本为主,发展

到后来动态页面(或称为 HiddenWeb)数据为主,后者的数据量约为

直接可见页面数据(PIW,PubliclyIndexableWeb)的400~500 倍。

另一方面,多媒体数据、WebService 等各种网络资源形式也日益丰

富。因此,基于网页内容的分析算法也从原来的较为单纯的文本检索

方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等

多种方法的综合应用。本节根据网页数据形式的不同,将基于网页内

容的分析算法,归纳以下三类:

1.针对以文本和超链接为主的无结构或结构很简单的网页;

2.针对从结构化的数据源(如RDBMS)动态生成的页面,其数据

不能直接批量访问;

3.针对的数据界于第一和第二类数据之间,具有较好的结构,显

示遵循一定模式或风 格 ,且 可以直接访问。

分布 式搜 索引 擎 蜘 蛛 体系 结构设 计 体系 结构研 究 所 属 范 围

分布 式搜 索引 擎 蜘 蛛 包 含 多个 爬 虫 ,每 个 爬 虫 需 要完 成的任 务 和

单个 的爬 行器类似 ,它 们 从互 联 网上 下载 网页,并把 网页保 存 在 本地

的磁 盘 ,从中 抽取 URL 并沿 着 这 些 URL 的指向 继 续 爬 行。由 于并行爬

行器需 要分割 下载 任 务 ,可能爬 虫 会 将自 己 抽取的URL 发送 给 其他 爬

虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理

位置。

根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:

1、基于局域网分布式搜索引擎蜘蛛:这种分布式爬行器的所有爬

虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫

通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集

中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫

之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定

的,爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式搜索引擎蜘蛛:当并行爬行器的爬虫分别运

行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式

爬行器。例如,分布式爬行器的爬虫可能位于中国,日本,和美国,

分别负责下载这三地的网页;或者位于 CHINANET,CERNET,CEINET,

分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以

子在一定程度上分散网络流量,减小网络出口的负载。如果爬虫分布

在不同的地理位置(或网络位置),需要间隔多长时间进行一次相互

通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限

的,通常需要通过互联网进行通信。

在实际应用中,基于局域网分布式搜索引擎蜘蛛应用的更广一些,

而基于广域网的爬虫由于实现复杂,设计和实现成本过高,一般 只 有

实力 雄 厚 和采 集任 务 较重 的大公 司 才 会使 用这种爬虫。本论 文 所设计

的爬虫就是基于局域网分布式搜索引擎蜘蛛。

分布式搜索引擎蜘蛛整体分析

分布式搜索引擎蜘蛛的整体设计重点应该在于爬虫如何进行通信。

目前分布式搜索引擎蜘蛛按通信方式不同分布式网路爬虫可以分为

主从模式、自治模式与混合模式三种。

主从模式是指由一台主机作为控制节点负责所有运行搜索引擎蜘

蛛的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生

成任务提交给控制节点就可以了,在这个过程中不必与其他爬虫通信,

这种方式实现简单利于管理。而控制节点则需要与所有爬虫进行通信,

它需要一个地址列表来保存系统中所有爬虫的信息。当系统中的爬虫

数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于

系统中的爬虫是透明的。但是随着爬虫网页数量的增加。控制节点会

成为整个系统的瓶颈而导致整个分布式搜索引擎蜘蛛系统性能下降。

主从模式的整体结构图:

主从模式的整体结构图

自治模式是指系统中没有协调者,所有的爬虫都必须相互通信,

比主从模式下爬虫要复杂一些。自治模式的通信方式可以使用全 连 接

通信或 环 形 通信。全 连 接通信是指所用爬虫都可以相互发送 信息,使

用这种方式的每 个搜索引擎蜘蛛会维 护 一个地址列表,表中存储 着整

个系统中所有爬虫的位 置 ,每 次 通信时可以直 接把数据发送 给需要此

数据的爬虫。当系统中的爬虫数量发生变化时,每 个爬虫的地址列表

都需要进行更新。环 形 通信是指爬虫在逻 辑 上 构成一个环 形 网,数据

在环 上 按顺 时针 或 逆 时针 单向 传 输 ,每 个爬虫的地址列表中只保存其

前驱和后继的信息。爬虫接收到数据之后判断数据是否是发送给自己

的,如果数据不是发送给自己的,就把数据转发给后继;如果数据是

发送给自己的,就不再发送。假设整个系统中有 n 个爬虫,当系统中

的爬虫数量发生变化时,系统中只有 n-1 个爬虫的地址列表需要进行

更新。

自治模式的结构图

混合模式是结合上面两种模式的特点的一种折中模式。该模式所

有的爬虫都可以相互通信同时都具有任务分配功能。不过所有爬虫中

有个特殊的爬虫,该爬虫主要功能对已经经过爬虫任务分配后无法分

配的任务进行集中分配。使用这个方式的每个搜索引擎蜘蛛只需维护

自己采集范围的地址列表。而特殊爬虫需除了保存自己采集范围的地

址列表外还保存需要进行集中分配的地址列表。混合模式的整体结构

图:

混合模式的整体结构图

大型分布式搜索引擎蜘蛛体系结构图

大型分布式搜索引擎蜘蛛体系结构图

从这些图可以看出,分布式搜索引擎蜘蛛是一项十分复杂系统。

需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层

面的资源也是必须的。不过不在本系列考虑范围。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hhappy0123456789

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值