Python3||爬虫||伪装浏览器||requests VS. urllib区别

最新推荐文章于 2023-11-23 17:53:14 发布

PerpetualLearner

最新推荐文章于 2023-11-23 17:53:14 发布

阅读量1.1w

点赞数 4

分类专栏： # 小白学Python 文章标签： requests urllib 伪装浏览器爬虫 http请求

本文链接：https://blog.csdn.net/The_Time_Runner/article/details/84455514

版权

488 篇文章 80 订阅

订阅专栏

有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,其实也很简单,就是改一下headers参数.

headers:以谷歌浏览器为例,在地址栏输入chrome://verison,复制"用户代理"下的内容就是headers

headers = {'User-Agent':'Mozilla/5.0xxxx'}

在这里插入图片描述

爬取数据的包有两个requests和urllib。新手（比如我）经常搞混。详细解释可看我另一篇文章(传送虫洞).

requests	urllib
官方文档 library	官方文档 package
import requests headers = {‘user-agent’:‘xxxx’} r = requests.get(url, headers = headers)	from urllib.request import urlopen,Request headers = {‘user-agent’:‘xxxx’} url = Request(url, headers=headers) r=urlopen(url,timeout=10)
返回一个response对象r	返回一个response对象r

2018-11-25 00:42:12写于滨州

关注

专栏目录