防止爬虫的手段_矛与盾:爬虫技巧,及反爬虫办法。

爬虫立场:爬虫的目的就是大规模地、长时间地获取数据,不过,总使用一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝,爬虫长时间爬取数据,还可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。下面5个技巧是爬虫常用的:技巧一:设置下载等待时间/下载频率大规模集中访问对服务器的影响较大,也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意...
摘要由CSDN通过智能技术生成

f7a80d9222a16c31b65bc7440e699c18.png
爬虫立场:

爬虫的目的就是大规模地、长时间地获取数据,不过,总使用一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝,爬虫长时间爬取数据,还可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。

下面5个技巧是爬虫常用的:

技巧一:设置下载等待时间/下载频率
大规模集中访问对服务器的影响较大,也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意。

技巧二·:修改User-Agent
最常见的就是伪装浏览器,修改User-Agent(用户代理)。
具体方法可以把User-Agent的值改为浏览器的方式,甚至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每次爬取的时候随机取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。

技巧三:设置cookies
cookie其实是储存在用户终端的一些被加密的数据,有些网站通过cookies来识别用户身份,如果某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为爬虫,这时网站就可以通

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值