爬虫初始深入
1. 爬虫在使用场景中的分类(三种)
- 通用爬虫:是搜索引擎抓取系统(即各个搜索引擎自己封装的爬虫程序)的重要组成部分。特性:抓取的是一整张页面数据
- 聚焦爬虫:是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容
- 增量式爬虫:监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据
2. 爬虫的矛与盾
(1)例子:
- 互联网中爬虫无处不在,可以为互联网带来无限收益。
- 比如,对于相关电商网站来说,它是原意被相关的评价网站去爬取信息的,因为这样可以给他们的商品带来更多的流量,但是这些电商网站不会原意被其他的电商网站爬取商品等等信息,因为同行的电商网站可能会对爬取的相关的商品进行恶意评价或者商品描述信息的抄袭等等,同时这些电商网站也会去爬取同行的电商网站的信息,这种纠结又复杂的现象就像如今的“卷”
- 好比,学霸原意给学渣抄笔记,但是不会给其他学霸抄,因为学渣怎么抄都不会超过学霸,但是同等“学霸”之间就会存在着“竞争力”。
- 通过以上例子,这种矛盾就可以被很充分的体现出来,那么我们该如何去解决这种“矛盾”呢?我们依靠反爬机制与反反爬策略。
(2)反爬机制
- 相关的门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
(3)反反爬策略
- 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。
(4)robots.txt 协议(反爬机制)
-
君子协议(并不具有强制性)。明确规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取。
-
例如:csdn的robots.txt协议