有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,其实也很简单,就是改一下headers参数.
headers:以谷歌浏览器为例,在地址栏输入chrome://verison,复制"用户代理"下的内容就是headers
headers = {'User-Agent':'Mozilla/5.0xxxx'}
- requests 与 urllib区别
爬取数据的包有两个requests和urllib。新手(比如我)经常搞混。详细解释可看我另一篇文章(传送虫洞).
requests | urllib |
---|---|
官方文档 library | 官方文档 package |
import requests headers = {‘user-agent’:‘xxxx’} r = requests.get(url, headers = headers) | from urllib.request import urlopen,Request headers = {‘user-agent’:‘xxxx’} url = Request(url, headers=headers) r=urlopen(url,timeout=10) |
返回一个response对象r | 返回一个response对象r |
.
.
.
2018-11-25 00:42:12写于滨州