python爬虫ip_Python爬虫防封ip的一些技巧

最新推荐文章于 2024-08-08 17:04:33 发布

weixin_39581845

最新推荐文章于 2024-08-08 17:04:33 发布

阅读量169

点赞数

文章标签： python爬虫ip

这篇文章主要介绍了Python爬虫防封ip的一些技巧，对平时学习爬虫有所帮助，感兴趣的朋友可以了解下

在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封IP，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒IP可能就被封了。

本文就如何解决这个问题总结出一些应对措施，这些措施可以单独使用，也可以同时使用，效果更好。

伪造User-Agent

在请求头中把User-Agent设置成浏览器中的User-Agent，来伪造浏览器访问。比如：

headers ={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} resp = requests.get(url,headers = headers)

还可以先收集多种浏览器的User-Agent，每次发起请求时随机从中选一个使用，可以进一步提高安全性：

把上面随机选择一个User-Agent的代码封装成一个函数：

在每次重复爬取之间设置一个随机时间间隔

比如：

time.sleep(random.randint(0,3))# 暂停0~3秒的整数秒，时间区间：[0,3]

或：

time.sleep(random.random())# 暂停0~1秒，时间区间：[0,1)

伪造cookies

若从浏览器中可以正常访问一个页面，则可以将浏览器中的cookies复制过来使用，比如：

注：用浏览器cookies发起请求后，如果请求频率过于频繁仍会被封IP，这时可以在浏览器上进行相应的手工验证(比如点击验证图片等)，然后就可以继续正常使用该cookies发起请求。

以上就是Python爬虫防封ip的一些技巧的详细内容。

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

万水千山总是情，点个【在看】行不行

*声明：本文于网络整理，版权归原作者所有，如来源信息有误或侵犯权益，请联系我们删除或授权事宜。

weixin_39581845

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。