![f7a80d9222a16c31b65bc7440e699c18.png](https://i-blog.csdnimg.cn/blog_migrate/a7013df705ad6365e706d3cf0667da3a.jpeg)
爬虫立场:
爬虫的目的就是大规模地、长时间地获取数据,不过,总使用一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝,爬虫长时间爬取数据,还可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。
下面5个技巧是爬虫常用的:
技巧一:设置下载等待时间/下载频率
大规模集中访问对服务器的影响较大,也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意。
技巧二·:修改User-Agent
最常见的就是伪装浏览器,修改User-Agent(用户代理)。
具体方法可以把User-Agent的值改为浏览器的方式,甚至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每次爬取的时候随机取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。
技巧三:设置cookies
cookie其实是储存在用户终端的一些被加密的数据,有些网站通过cookies来识别用户身份,如果某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为爬虫,这时网站就可以通