Python爬虫002浏览器的模拟Header属性

自学笔记002可以使用pycharm直接作为python文件,运行查看author = ‘xiaoj’

’’‘
有的时候,我们无法爬去一些网页,会出现403错误,因为这些网页为了防止别人恶意采集器信息所以进行了一些反爬虫的设置。
那么如果我们想爬取这些网页的信息,该怎么办呢?
————可以设置一些Headers信息,模拟成浏览器去访问这些网址,此时,就能够解决这个问题
’’’
#利用上节课的只是爬取CSDN博客的内容:
import urllib.request

url = “网页链接
file = urllib.request.urlopen(url)
print(file)
#此时返回结果会报403Forbidden错误,接下来我们讲解两种让爬虫模拟成浏览器访问网页的设置方法

‘’‘
方法1:使用build_opener()修改报头
由于urlopen()不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用urllib.request.build_opener()进行
比如:
’’’

url = "网页链接"
header = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
opener = urllib.request.build_opener()#创建build_opener操作对象
opener.addheaders = [header]#添加报头信息
data = opener.open(url).read()#接收返回信息,并读取

#此时已经模仿为浏览器去打开,我们保存爬到的信息
fhandle = open(“F:/python/part4/3.html”,“wb”)
a = fhandle.write(data)#print(a)查看写入的字节数
fhandle.close()

‘’‘
方法2:使用add_header()添加报头
除了上述方法,还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟
’’'
import urllib.request
url = "网页链接
req = urllib.request.Request(url)#创建请求对象
req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
data = urllib.request.urlopen(req).read()
data = data.decode(“utf-8”)#转码,将原始的数据以utf-8编码的形式转换出来
print(data)

 

更多的软件测试视频资料,都在柠檬班的软件测试技术交流群哦~939885326与群内软测dalao谈笑风生

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值