【无标题】

最新推荐文章于 2024-08-15 22:18:26 发布

gezhendehaofan

最新推荐文章于 2024-08-15 22:18:26 发布

阅读量63

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gezhendehaofan/article/details/126736328

版权

爬虫的认知

爬虫初衷

爬虫最初就是用来生成搜索引擎索引数据库

爬虫分类

善意爬虫：爬取公开信息，且不运行服务器运行
恶意爬虫：
1.干扰被访网站的运行
2.爬取被法律保护的信息

爬虫分类

（1）通用爬虫
通用爬虫：抓取互联网页面全部信息

1.该类适合搜索广泛主题
2.深度优先：按照深度由底到高，依次访问下一级，直到无法访问。
3.广度优先：按照网页内容目录的深浅，由浅层到深的爬取。当同一层爬行完毕后才进入下一次。
（2）聚焦爬虫
聚焦爬虫：抓取互联网页面特点内容

1.基于内容评价的爬行：以输入的查询词为主题，包含该查询词页面视为与主题相关页面
2.基于链接结构评价的爬行：较为广泛的
3.基于增强学习的爬行：利用结构特征来评价页面和链接的重要性
4.基于语境图的爬行：通过建立语境图学习网页之间的相关度的爬行策略
（3）增量式爬虫
增量式爬虫：检测网站更新情况，对已下载网页采取增量式更新，只爬取新产生以及发生变化的网页

1.统一更新法：以相同的频率访问所有网页，不受网页频率改变的影响
2.个体更新法：根据个体网页的改变重新决定频率
3。基于分类的更新法：根据网页更新的快慢来设定不同的频率来访问

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【无标题】

爬虫最初就是用来生成搜索引擎索引数据库。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。