python爬虫伪装浏览器_Python 爬虫基础 - 浏览器伪装

最新推荐文章于 2023-09-27 14:36:53 发布

weixin_39534121

最新推荐文章于 2023-09-27 14:36:53 发布

阅读量389

点赞数

文章标签： python爬虫伪装浏览器

前面学习了Urllib模块里面最最基本的GET和POST操作。现在做个简单的例子，比如我打算爬http://www.oschina.net/ 的页面

如果使用一样的方法

import urllib.request

url = "http://www.oschina.net/"

data = urllib.request.urlopen(url).read()

他会抛出以下异常

raise HTTPError(req.full_url, code, msg, hdrs, fp)

urllib.error.HTTPError: HTTP Error 403: Forbidden

这是因为这个网站做了一个反爬的设置，禁止非浏览器访问。绕过这个限制很容易，我们自己加工一个Header让服务器认为我们是通过浏览器访问的就好了。

按F12，选择network，刷新页面，然后看看Request Header里面的User-Agent

把这段内容拷贝下来，我们就可以自己编辑了。

Urllib里面有2个方法可以自己添加header。

Method 1：通过build_opener()实现

import urllib.request

url = "http://www.oschina.net/"

header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[header]

data=opener.open(url).read()

fp=open('c:\\temp\\tt.html','wb')

fp.write(data)

fp.close()

Method 2: 通过 Request()实现

import urllib.request

url = "http://www.oschina.net/"

r=urllib.request.Request(url)

r.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")

data=urllib.request.urlopen(r).read()

fp=open('c:\\temp\\tt.html','wb')

fp.write(data)

fp.close()

两种方法都可以实现浏览器伪装。执行一下，就可以成功地爬取这个网站的页面了。

weixin_39534121

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫伪装浏览器_Python 爬虫基础 - 浏览器伪装

前面学习了Urllib模块里面最最基本的GET和POST操作。现在做个简单的例子，比如我打算爬http://www.oschina.net/ 的页面如果使用一样的方法import urllib.requesturl = "http://www.oschina.net/"data = urllib.request.urlopen(url).read()他会抛出以下异常raise HTTPError(...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。