关于python爬虫(requests)设置http代理的源码demo

本文介绍了在Python爬虫中遇到IP受限问题时,如何使用HTTP代理进行访问。通过设置随机的user-agent参数和选择高质量的HTTP代理服务来避免反爬。提供了requests库设置HTTP代理的源码示例,帮助读者理解并实现在爬虫程序中应用代理IP。
摘要由CSDN通过智能技术生成

科技不断发展,网络给我们带来了便利,但有时候也会遇到问题,当我们在网络中畅游时,很可能遇到IP受限导致的访问不了这种事情,这个时候我们就需要使用到http代理IP。
那么如何判断自己遇到的是访问受限呢?访问某个网站时,如果出现网站页面无法打开、无法登陆账密、抓取信息显示空白、出现404 not found错误提示、明确标明同一IP操作字样等。都能说明你中奖了,IP被封了。建议先观察下出现的规律,如果是网络爬虫从业者,还应降低爬取频率,构造类似的浏览器头信息。当然最简单的解决办法是使用HTTP代理IP。
使用http代理后如何伪装自己的爬虫程序,尽量避免反爬:
1 设置随机请求头的user-agent参数必不可少。user-agent是浏览器的标识,所以越多越好,大量的随机,跟代理ip一样重要!用户都是一种浏览器,也是容易判断作弊,要构造不同的浏览器标识,否则容易被判定爬虫。用代理访问之后,浏览器标识需要修改,建议浏览器用phantomjs框架,这个可以模拟其他浏览器的标示,可以通过API接口实现各种浏览器的采集模拟。这里提供一份真实随机的UA库给大家。

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2)
Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36
Mozilla/4.0 (compatible; MSIE 5.0; Windows 3.1; Trid
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值