爬虫---反反爬---User-Agent

最新推荐文章于 2024-06-02 23:20:28 发布

agsddd

最新推荐文章于 2024-06-02 23:20:28 发布

阅读量599

点赞数

分类专栏：爬虫开发爬虫开发历程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41245276/article/details/87523537

版权

爬虫开发同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

爬虫开发历程

20 篇文章 0 订阅

订阅专栏

User-Agent

1、用户代理，浏览器身份识别

2、通过它判断是谁在发送请求，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等

3、代码中添加User-Agent实现模拟浏览器

4.某大牛写了个库，fake-useragent，本质其实也是个爬虫。可随机生成UA。

pip install fake-useragent

from fake_useragent import UserAgent
ua = UserAgent()
#ie浏览器的user agent
print(ua.ie)

#opera浏览器
print(ua.opera)

#chrome浏览器
print(ua.chrome)

#firefox浏览器
print(ua.firefox)

#safri浏览器
print(ua.safari)

#随机浏览器
print(ua.random)

常遇的BUG:

fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached

解决3板斧：

禁用服务器缓存：
ua = UserAgent(use_cache_server=False)

不缓存数据：
ua = UserAgent(cache=False)

忽略ssl验证：
ua = UserAgent(verify_ssl=False)

5.如果没解决，那算了，感觉不太稳定，时灵时不灵的，留个后手收集一批UA。

6.某些网站反爬厉害的话，注意代理ip和cookie，UA要保持一致。

7.使用Scrapy爬取贴吧的时候，携带了个UA，反而获取不到理想中的页面，卸掉UA可以正常获取。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。