防止爬虫的手段_矛与盾：爬虫技巧，及反爬虫办法。

最新推荐文章于 2024-07-17 08:31:44 发布

sunshine现

最新推荐文章于 2024-07-17 08:31:44 发布

阅读量1.5k

点赞数

文章标签：防止爬虫的手段

本文链接：https://blog.csdn.net/weixin_35422771/article/details/112772257

版权

爬虫立场：爬虫的目的就是大规模地、长时间地获取数据，不过，总使用一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝，爬虫长时间爬取数据，还可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。下面5个技巧是爬虫常用的：技巧一：设置下载等待时间/下载频率大规模集中访问对服务器的影响较大，也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意...

摘要由CSDN通过智能技术生成

爬虫立场：

爬虫的目的就是大规模地、长时间地获取数据，不过，总使用一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝，爬虫长时间爬取数据，还可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。

下面5个技巧是爬虫常用的：

技巧一：设置下载等待时间/下载频率
大规模集中访问对服务器的影响较大，也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意。

技巧二·：修改User-Agent
最常见的就是伪装浏览器，修改User-Agent(用户代理)。
具体方法可以把User-Agent的值改为浏览器的方式，甚至可以设置一个User-Agent池(list，数组，字典都可以)，存放多个“浏览器”，每次爬取的时候随机取一个来设置request的User-Agent，这样User-Agent会一直在变化，防止被墙。

技巧三：设置cookies
cookie其实是储存在用户终端的一些被加密的数据，有些网站通过cookies来识别用户身份，如果某个访问总是高频率地发请求，很可能会被网站注意到，被嫌疑为爬虫，这时网站就可以通

最低0.47元/天解锁文章

sunshine现

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
防止爬虫的手段_矛与盾：爬虫技巧，及反爬虫办法。

爬虫立场：爬虫的目的就是大规模地、长时间地获取数据，不过，总使用一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝，爬虫长时间爬取数据，还可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。下面5个技巧是爬虫常用的：技巧一：设置下载等待时间/下载频率大规模集中访问对服务器的影响较大，也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意...
复制链接

扫一扫