python 爬虫 伪装浏览器_python爬虫之浏览器伪装设置

之前使用爬虫去爬取网页的时候,user-agent对应的是python自己的名字,这将会告诉网站管理员;我就是爬虫哦,我来爬取信息了,说不准就不能爬取信息了,因此,在实际操作中可以采用修改user-agent的方法,将怕从伪装成浏览器,从而不暴露自己,具体操作和演示如下:

首先导入第三方requests库和并获取url,这里以豆瓣为例,并用r.request.hedaers获取返回信息的头部信息,可以看到这里的user-agent为python-requests/2.18.4'

>>> import requests

>>> r=requests.get('http://www.douban.com/')

>>> r.request.headers

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

接下来进行替换:

>>> kv={'user-agent':'Mozilla/5.0'}

>>> r=requests.get('http://www.douban.com/',headers=kv)

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

首先构造字典:

kv={'user-agent':'Mozilla/5.0'}

然后将headers的中user-agent替换为kv的键值对,如下操作

r=requests.get('http://www.douban.com/',headers=kv)

再次获取头部信息:

r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

可以看到此时的头部信息已经替换为了Mozilla/5.0了。

以上就是伪装浏览器了

欢迎交流

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值