从本篇博客开始,我们将进入《爬虫 120 例》的反爬章节,给大家准备了 20 篇反爬案例,一次学到位。
反爬理论知识
通过前面的爬虫程序,你或许已经注意到,对于目标站点来说,爬虫程序是机器访问,从目标站点的角度来看,爬虫带来的流量都是**“垃圾流量”**,是完全没有价值的(刷量类爬虫除外)。
为了屏蔽这些垃圾流量,或者为了降低自己服务器压力,避免被爬虫程序影响到正常人类的使用,开发者会研究各种各样的手段,去反爬虫。
爬虫与反爬虫是一对共生关系,有爬虫工程师,就必然存在反爬工程师,很多时候,爬虫工程师与反爬工程师都在斗智斗勇。
反爬没有特定的分类,如果一个网站上了反爬代码,一般情况下会使用几种反爬措施搭配使用。
服务器验证请求信息类爬虫
本系列的博客从最简单的反爬手段开始学习,入门级反爬:“User-Agent” 用户代理反爬。
User-Agent
用户代理(User-Agent),