python爬虫基础(十四)高级用法下

1.超时设置

import requests
r=requests.get("https://www.taobao.com",timeout=1)
print(r.status_code)

通过这样的方式,我们可以将超时时间设置为1秒,如果1秒内没有响应,就会抛出异常。

实际上,请求分为两个阶段,即连接和读取。

上面设置的timeout将用作连接和读取这二者的timeout总和。

如果要分别指定,就可以传入一个元组:

r=requests.get('https://www.taobao.com',timeout=(5,11, 30))

如果想永久等待,可以将timeout设置为None,或者不设置直接留空,因为默认是None:

r=requests.get('https://www.taobao.com',timeout=None)

2.身份认证

import requests
from requests.auth import HTTPBasicAuth
r=requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password'))
print(r.status_code)

如果用户名和密码正确的话,请求时就会自动认证成功,返回200状态码;认证失败就返回401状态码。

如果参数都传一个HTTPBasicAuth类,就显得有些啰嗦了,我们可以直接传入一个元组,上面代码可以直接简写:

import requests
r=requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password'))
print(r.status_code)

2.Prepared Request

前面学到urllib时,我们可以将请求表示为数据结构,其中各个参数都可以通过一个Request对象来表示。在requests里也能做到,这个数据结构就叫Prepared Request。

from requests import Request,Session
url='http://httpbin.org/post'
data={
    'name':'germey'
}
headers={
    'uSER-Agent':'Mozilla/5.0(Mocintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36(KHTML,like Gecko'
                 'Chro,e/53.0.2785.166 Safari/537.36'
}
s=Session()
req=Request('POST', url,data=data,headers=headers)
prepped=s.prepare_request(req)
r=s.send(prepped)
print(r.text)

这里我们引入了Request,然后用url、data和headers参数构造了一个Request对象,这是需要再调用Session的prepare_request()方法将其转换为一个Prepared Request对象,然后调用send()方法发送。运行结果如下:

 有了Request这个对象,就可以将请求当作独立的对象来看待,这样在进行队列调度时会非常方便。后面我们会用它来构造一个Request队列。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值