01 - 爬虫初始深入

郑师傅炒板栗

已于 2022-09-21 17:39:58 修改

阅读量153

点赞数

分类专栏： python 爬虫文章标签：爬虫搜索引擎 python

于 2022-01-25 12:30:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43306271/article/details/122682936

版权

python 爬虫专栏收录该内容

12 篇文章 1 订阅

订阅专栏

爬虫初始深入

1. 爬虫在使用场景中的分类（三种）

通用爬虫：是搜索引擎抓取系统（即各个搜索引擎自己封装的爬虫程序）的重要组成部分。特性：抓取的是一整张页面数据
聚焦爬虫：是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容
增量式爬虫：监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

2. 爬虫的矛与盾

（1）例子：

互联网中爬虫无处不在，可以为互联网带来无限收益。
比如，对于相关电商网站来说，它是原意被相关的评价网站去爬取信息的，因为这样可以给他们的商品带来更多的流量，但是这些电商网站不会原意被其他的电商网站爬取商品等等信息，因为同行的电商网站可能会对爬取的相关的商品进行恶意评价或者商品描述信息的抄袭等等，同时这些电商网站也会去爬取同行的电商网站的信息，这种纠结又复杂的现象就像如今的“卷”
好比，学霸原意给学渣抄笔记，但是不会给其他学霸抄，因为学渣怎么抄都不会超过学霸，但是同等“学霸”之间就会存在着“竞争力”。
通过以上例子，这种矛盾就可以被很充分的体现出来，那么我们该如何去解决这种“矛盾”呢？我们依靠反爬机制与反反爬策略。

（2）反爬机制

相关的门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

（3）反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

（4）robots.txt 协议（反爬机制）

君子协议（并不具有强制性）。明确规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。
例如：csdn的robots.txt协议

在这里插入图片描述

郑师傅炒板栗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
01 - 爬虫初始深入

爬虫初始深入1. 爬虫在使用场景中的分类（三种）通用爬虫：是搜索引擎抓取系统（即各个搜索引擎自己封装的爬虫程序）的重要组成部分。特性：抓取的是一整张页面数据聚焦爬虫：是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容增量式爬虫：监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据2. 爬虫的矛与盾（1）例子：互联网中爬虫无处不在，可以为互联网带来无限收益。比如，对于相关电商网站来说，它是原意被相关的评价网站去爬取信息的，因为这样可以给他们的商品带来更多的流量，但是这些电商网站
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。