Python---伪装成浏览器进行爬虫

最新推荐文章于 2023-04-26 21:13:02 发布

小李小李~啦啦啦

最新推荐文章于 2023-04-26 21:13:02 发布

阅读量905

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/weixin_43164078/article/details/116232832

版权

爬虫技术之伪装成浏览器进行爬虫

步骤：
1.导入request模块
2.设置要爬虫的网络地址
3.设置浏览器的报头信息【文章末尾会简述如何查看浏览器的报头信息】
4.添加报头信息【方法：addheadsers】
5.进行爬虫
6.将爬虫信息写入到本地文件
例子：
爬取CSDN的一篇博客

import urllib.request
#设置网络地址
url="http://read.douban.com/provider/all"
#利用元组设置报头信息
header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36")
#添加报头信息
opener=urllib.request.build_opener()
opener.addheaders=[header]
#爬取网页
data=opener.open(url).read()
#将爬取到的网页加入到本地文件中
fh=open("D:\研究生课程\存储文件-练习\B04.html","wb")
fh.write(data)
fh.close()

如何获取浏览器的报头信息

首先在浏览器中打开一个想要爬取的网页
按F12键
在这里插入图片描述

小李小李~啦啦啦

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python---伪装成浏览器进行爬虫

爬虫技术之伪装成浏览器进行爬虫步骤：1.导入request模块2.设置要爬虫的网络地址3.设置浏览器的报头信息【文章末尾会简述如何查看浏览器的报头信息】4.添加报头信息【方法：addheadsers】5.进行爬虫6.将爬虫信息写入到本地文件例子：爬取CSDN的一篇博客import urllib.request#设置网络地址url="http://read.douban.com/provider/all"#利用元组设置报头信息header=("User-Agent","Mozill
复制链接

扫一扫