笔记-爬虫算法

最新推荐文章于 2024-03-20 21:46:12 发布

VIP文章 akuibpt23191

最新推荐文章于 2024-03-20 21:46:12 发布

阅读量1.1k

点赞数 1

文章标签：爬虫 python 数据结构与算法

原文链接：http://www.cnblogs.com/wodeboke-y/p/9089072.html

版权

笔记-爬虫算法　　

1.网站结构

网站结构一般情况下可以简化为一个树状

2.爬虫算法

在大规模爬虫系统中，待抓取url队列是很重要的一部分，队列顺序也是很重要的内容；爬虫算法就是用于决定抓取先后顺序的。

下文将介绍目前常用的算法：

1.深度优先：

深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续追踪链接；

一般通过递归实现；

缺点在于部分网页深度太深而效率较低或绕不出来了；

scrapy默认使用深度优先；

2.宽度优先

是指将新下载网页发现的链接直接插入到待抓取URL队列的末尾；

使用队列实现；

上述两种方法是最基础的遍历，下面几种方法都是对网页内容进行分析来决定链接的优先级；

3.反向链接数

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。

在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。

4.Partial PageRank策略

Partial PageRank算法借

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
笔记-爬虫算法

笔记-爬虫算法　　1.网站结构网站结构一般情况下可以简化为一个树状2.爬虫算法在大规模爬虫系统中，待抓取url队列是很重要的一部分，队列顺序也是很重要的内容；爬虫算法就是用于决定抓取先后顺序的。下文将介绍目前常用的算法：1.深度优先：深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续追踪链接；一般...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。