网页分析算法

最新推荐文章于 2023-05-02 14:59:41 发布

hhappy0123456789

最新推荐文章于 2023-05-02 14:59:41 发布

阅读量882

点赞数 1

文章标签：算法 python 开发语言 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhappy0123456789/article/details/128714922

版权

文章介绍了网页分析的三种类型：基于网络拓扑、网页内容和用户访问行为，详细讨论了PageRank和HITS等链接分析算法，以及网站粒度和网页块粒度的分析方法。此外，文章还探讨了分布式搜索引擎蜘蛛的局域网和广域网架构，以及主从模式、自治模式和混合模式的通信方式。

摘要由CSDN通过智能技术生成

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用

户访问行为三种类型。

4.1、基于网络拓扑的分析算法

基于网页之间的链接，通过已知的网页或数据，来对与其有直接

或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又

分为网页粒度、网站粒度和网页块粒度这三种。

4.1.1、网页粒度的分析算法

PageRank 和 HITS 算法是最常见的链接分析算法，两者都是通过

对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。

PageRank 算法虽然考虑了用户访问行为的随机性和 Sink 网页的存在，

但忽略了绝大多数用户访问时带有目的性，即网页和链接与

查询主题的相关性。针对这个问题，HITS 算法提出了两个关键的

概念：权威型网页（authority）和中心型网页（hub）。

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很

多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断

了在当前路径上的抓取行为。部分文献提出了一种基于反向链接

（BackLink）的分层式上下文模型（ContextModel），用于描述指向

目标网页一定物理跳数半径内的网页拓扑图的中心 Layer0 为目标网

页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页

指向内层网页的链接称为反向链接。

4.1.2、网站粒度的分析算法

网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网

站粒度的爬虫抓取的关键之处在于站点的划分和站点等级 (SiteRank)

的计算， SiteRank 的计算方法与 PageRank 类似，但是需要对网站之

间的链接作一定程度抽象，并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按 IP 地址划分两种。一些文献讨

论了在分布式情况下，通过对同一个域名下不同主机、服务器的 IP

地址进行站点划分，构造站点图，利用类似 PageRank 的方法评价

SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档

图，结合 SiteRank 分布式计算得到 DocRank。利用分布式的 SiteRank

计算，不仅大大降低了单机站点的算法代价，而且克服了单独站点对

整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank 造

假难以对 SiteRank 进行欺骗。

4.1.3、网页块粒度的分析算法

在一个页面中，往往含有多个指向其他页面的链接，这些链接中

只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其

具有较高重要性。但是，在 PageRank 和 HITS 算法中，没有对这些链

接作区分，因此常常给网页分析带来广告等噪声链接的干扰。在网页

块级别(Blocklevel)进行链接分析的算法的基本思想是通过 VIPS 网

页分割算法将网页分为不同的网页块(pageblock)，然后对这些网页

块建立pagetoblock 和 blocktopage 的链接矩阵，分别记为 Z 和 X。

于是，在 pagetopage 图上的网页块级别的 PageRank 为 W(p)=X×Z；

在 blocktoblock 图上的 BlockRank 为 W(b)=Z×X。已经有人实现了

块级别的PageRank 和HITS 算法，并通过实验证明，效率和准确率都

比传统的对应算法要好。

4.2、基于网页内容的网页分析算法

基于网页内容的分析算法指的是利用网页内容（文本、数据等资

源）特征进行的网页评价。网页的内容从原来的以超文本为主，发展

到后来动态页面（或称为 HiddenWeb）数据为主，后者的数据量约为

直接可见页面数据（PIW，PubliclyIndexableWeb）的400~500 倍。

另一方面，多媒体数据、WebService 等各种网络资源形式也日益丰

富。因此，基于网页内容的分析算法也从原来的较为单纯的文本检索

方法，发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等

多种方法的综合应用。本节根据网页数据形式的不同，将基于网页内

容的分析算法，归纳以下三类：

1.针对以文本和超链接为主的无结构或结构很简单的网页；

2.针对从结构化的数据源（如RDBMS）动态生成的页面，其数据

不能直接批量访问；

3.针对的数据界于第一和第二类数据之间，具有较好的结构，显

示遵循一定模式或风格，且可以直接访问。

分布式搜索引擎蜘蛛体系结构设计体系结构研究所属范围

分布式搜索引擎蜘蛛包含多个爬虫，每个爬虫需要完成的任务和

单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地

的磁盘，从中抽取 URL 并沿着这些 URL 的指向继续爬行。由于并行爬

行器需要分割下载任务，可能爬虫会将自己抽取的URL 发送给其他爬

虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理

位置。

根据爬虫的分散程度不同，可以把分布式爬行器分成以下两大类：

1、基于局域网分布式搜索引擎蜘蛛：这种分布式爬行器的所有爬

虫在同一个局域网里运行，通过高速的网络连接相互通信。这些爬虫

通过同一个网络去访问外部互联网，下载网页，所有的网络负载都集

中在他们所在的那个局域网的出口上。由于局域网的带宽较高，爬虫

之间的通信的效率能够得到保证；但是网络出口的总带宽上限是固定

的，爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式搜索引擎蜘蛛：当并行爬行器的爬虫分别运

行在不同地理位置（或网络位置），我们称这种并行爬行器为分布式

爬行器。例如，分布式爬行器的爬虫可能位于中国，日本，和美国，

分别负责下载这三地的网页；或者位于 CHINANET，CERNET，CEINET，

分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以

子在一定程度上分散网络流量，减小网络出口的负载。如果爬虫分布

在不同的地理位置（或网络位置），需要间隔多长时间进行一次相互

通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限

的，通常需要通过互联网进行通信。

在实际应用中，基于局域网分布式搜索引擎蜘蛛应用的更广一些，

而基于广域网的爬虫由于实现复杂，设计和实现成本过高，一般只有

实力雄厚和采集任务较重的大公司才会使用这种爬虫。本论文所设计

的爬虫就是基于局域网分布式搜索引擎蜘蛛。

分布式搜索引擎蜘蛛整体分析

分布式搜索引擎蜘蛛的整体设计重点应该在于爬虫如何进行通信。

目前分布式搜索引擎蜘蛛按通信方式不同分布式网路爬虫可以分为

主从模式、自治模式与混合模式三种。

主从模式是指由一台主机作为控制节点负责所有运行搜索引擎蜘

蛛的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生

成任务提交给控制节点就可以了，在这个过程中不必与其他爬虫通信，

这种方式实现简单利于管理。而控制节点则需要与所有爬虫进行通信，

它需要一个地址列表来保存系统中所有爬虫的信息。当系统中的爬虫

数量发生变化时，协调者需要更新地址列表里的数据，这一过程对于

系统中的爬虫是透明的。但是随着爬虫网页数量的增加。控制节点会

成为整个系统的瓶颈而导致整个分布式搜索引擎蜘蛛系统性能下降。

主从模式的整体结构图：

主从模式的整体结构图

自治模式是指系统中没有协调者，所有的爬虫都必须相互通信，

比主从模式下爬虫要复杂一些。自治模式的通信方式可以使用全连接

通信或环形通信。全连接通信是指所用爬虫都可以相互发送信息，使

用这种方式的每个搜索引擎蜘蛛会维护一个地址列表，表中存储着整

个系统中所有爬虫的位置，每次通信时可以直接把数据发送给需要此

数据的爬虫。当系统中的爬虫数量发生变化时，每个爬虫的地址列表

都需要进行更新。环形通信是指爬虫在逻辑上构成一个环形网，数据

在环上按顺时针或逆时针单向传输，每个爬虫的地址列表中只保存其

前驱和后继的信息。爬虫接收到数据之后判断数据是否是发送给自己

的，如果数据不是发送给自己的，就把数据转发给后继；如果数据是

发送给自己的，就不再发送。假设整个系统中有 n 个爬虫，当系统中

的爬虫数量发生变化时，系统中只有 n-1 个爬虫的地址列表需要进行

更新。

自治模式的结构图

混合模式是结合上面两种模式的特点的一种折中模式。该模式所

有的爬虫都可以相互通信同时都具有任务分配功能。不过所有爬虫中

有个特殊的爬虫，该爬虫主要功能对已经经过爬虫任务分配后无法分

配的任务进行集中分配。使用这个方式的每个搜索引擎蜘蛛只需维护

自己采集范围的地址列表。而特殊爬虫需除了保存自己采集范围的地

址列表外还保存需要进行集中分配的地址列表。混合模式的整体结构

图：

混合模式的整体结构图

大型分布式搜索引擎蜘蛛体系结构图

大型分布式搜索引擎蜘蛛体系结构图

从这些图可以看出，分布式搜索引擎蜘蛛是一项十分复杂系统。

需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层

面的资源也是必须的。不过不在本系列考虑范围。

hhappy0123456789

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hhappy0123456789 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。