Python3||爬虫||伪装浏览器||requests VS. urllib区别

有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,其实也很简单,就是改一下headers参数.

headers:以谷歌浏览器为例,在地址栏输入chrome://verison,复制"用户代理"下的内容就是headers

headers = {'User-Agent':'Mozilla/5.0xxxx'}

在这里插入图片描述

  • requests 与 urllib区别

爬取数据的包有两个requests和urllib。新手(比如我)经常搞混。详细解释可看我另一篇文章(传送虫洞).

requestsurllib
官方文档 library官方文档 package
import requests
headers = {‘user-agent’:‘xxxx’}
r = requests.get(url, headers = headers)
from urllib.request import urlopen,Request
headers = {‘user-agent’:‘xxxx’}
url = Request(url, headers=headers)
r=urlopen(url,timeout=10)
返回一个response对象r返回一个response对象r

.

.

.

2018-11-25 00:42:12写于滨州

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值