爬虫技术之伪装成浏览器进行爬虫
步骤:
1.导入request模块
2.设置要爬虫的网络地址
3.设置浏览器的报头信息【文章末尾会简述如何查看浏览器的报头信息】
4.添加报头信息【方法:addheadsers】
5.进行爬虫
6.将爬虫信息写入到本地文件
例子:
爬取CSDN的一篇博客
import urllib.request
#设置网络地址
url="http://read.douban.com/provider/all"
#利用元组设置报头信息
header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36")
#添加报头信息
opener=urllib.request.build_opener()
opener.addheaders=[header]
#爬取网页
data=opener.open(url).read()
#将爬取到的网页加入到本地文件中
fh=open("D:\研究生课程\存储文件-练习\B04.html","wb")
fh.write(data)
fh.close()
如何获取浏览器的报头信息
首先在浏览器中打开一个想要爬取的网页
按F12键