Requests
模块是一个用于网络访问的模块,其实类似的模块有很多,比如urllib
,urllib2
,httplib
,httplib2
,他们基本都提供相似的功能,但是Requests
是这些模块中使用率最高的一个模块。
一、安装
pip3 install requests
二、导入
安装完成后,导入模块很简单,代码如下:
import requests
三、请求url
这里我们列出最常见的发送get或者post请求的语法。
1、发送无参数的get请求:
r=requests.get("http://pythontab.com/justTest”)
现在,我们得到了一个响应对象r
,我们可以利用这个对象得到我们想要的任何信息。
上面的例子中,get
请求没有任何参数,那如果请求需要参数怎么办呢?
2、发送带参数的get
请求
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://pythontab.com/justTest", params=payload)
以上得知,我们的get
参数是以params
关键字参数传递的。我们可以打印请求的具体url来看看到底对不对:
>>>print r.url
http://pythontab.com/justTest?key2=value2&key1=value1
可以看到确实访问了正确的url
。
还可以传递一个list
给一个请求参数:
>>> payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
>>> r = requests.get("http://pythontab.com/justTest", params=payload)
>>> print r.url
http://pythontab.com/justTest?key1=value1&key2=value2&key2=value3
以上就是get
请求的基本形式。
3、发送post
请求
r = requests.post("http://pythontab.com/postTest", data = {"key":"value"})
以上得知,post
请求参数是以data
关键字参数来传递的。现在的data
参数传递的是字典,我们也可以传递一个json格式的数据,如下:
>>> import json
>>> import requests
>>> payload = {"key":"value"}
>>> r = requests.post("http://pythontab.com/postTest", data = json.dumps(payload))
由于发送json
格式数据太常见了,所以在Requests
模块的高版本中,又加入了json
这个关键字参数,可以直接发送json
数据给post
请求而不用再使用json
模块了,见下:
>>> payload = {"key":"value"}
>>> r = requests.post("http://pythontab.com/postTest", json=payload)
如果我们想post
一个文件怎么办呢?这个时候就需要用到files
参数了:
>>> url = 'http://pythontab.com/postTest'
>>> files = {'file': open('report.xls', 'rb')}
>>> r = requests.post(url, files=files)
>>> r.text
我们还可以在post
文件时指定文件名等额外的信息:
>>> url = 'http://pythontab.com/postTest'
>>> files = {'file': ('report.xls', open('report.xls', 'rb'), 'application/vnd.ms-excel', {'Expires': '0'})}
>>> r = requests.post(url, files=files)
tips:强烈建议使用二进制模式打开文件,因为如果以文本文件格式打开时,可能会因为“Content-Length”
这个header
而出错。
可以看到,使用Requests
发送请求简单吧!
四、获取返回信息
1、响应内容
r.encoding
# 获取当前的编码r.encoding = 'utf-8'
# 设置编码r.text
# 以encoding解析返回内容。字符串方式的响应体,会自动根据响应头部的字符编码进行解码。r.content
# 以字节形式(二进制)返回。字节方式的响应体,会自动为你解码gzip
和deflate
压缩。r.headers
# 以字典对象存储服务器响应头,但是这个字典比较特殊,字典键不区分大小写,若键不存在则返回Noner.status_code
# 响应状态码r.raw
# 返回原始响应体,也就是urllib
的response
对象,使用r.raw.read()
r.ok
# 查看r.ok
的布尔值便可以知道是否登陆成功
特殊方法
r.json()
# Requests中内置的JSON解码器,以json形式返回,前提返回的内容确保是json格式的,不然解析出错会抛异常r.raise_for_status()
# 失败请求(非200响应)抛出异常
下面我们来看下发送请求后如何获取返回信息。我们继续使用最上面的例子:
>>> import requests
>>> r=requests.get('http://pythontab.com/justTest')
>>> r.text
r.text
是以什么编码格式输出的呢?
>>> r.encoding
'utf-8’
原来是以utf-8
格式输出的。那如果我想改一下r.text
的输出格式呢?
>>> r.encoding = 'ISO-8859-1'
这样就把输出格式改为“ISO-8859-1”
了。
还有一个输出语句,叫r.content
,那么这个和r.text
有什么区别呢?r.content
返回的是字节流,如果我们请求一个图片地址并且要保存图片的话,就可以用到,这里举个代码片段如下:
def saveImage( imgUrl,imgName ="default.jpg" ):
r = requests.get(imgUrl, stream=True)
image = r.content
destDir="D:\"
print("保存图片"+destDir+imgName+"\n")
try:
with open(destDir+imgName ,"wb") as jpg:
jpg.write(image)
return
except IOError:
print("IO Error")
return
finally:
jpg.close
刚才介绍的r.text
返回的是字符串,那么,如果请求对应的响应是一个json
,那我可不可以直接拿到json
格式的数据呢?r.json()
就是为这个准备的。
我们还可以拿到服务器返回的原始数据,使用r.raw.read()
就可以了。不过,如果你确实要拿到原始返回数据的话,记得在请求时加上“stream=True”
的选项,如:
r = requests.get('https://api.github.com/events', stream=True)。
我们也可以得到响应状态码:
>>> r = requests.get('http://pythontab.com/justTest')
>>> r.status_code
200
也可以用requests.codes.ok
来指代200这个返回值:
>>> r.status_code == requests.codes.ok
True
五、关于headers
我们可以打印出响应头:
>>> r= requests.get("http://pythontab.com/justTest")
>>> r.headers
`r.headers`返回的是一个字典,例如:
{
'content-encoding': 'gzip',
'transfer-encoding': 'chunked',
'connection': 'close',
'server': 'nginx/1.0.4',
'x-runtime': '147ms',
'etag': '"e1ca502697e5c9317743dc078f67693a"',
'content-type': 'application/json'
}
我们可以使用如下方法来取得部分响应头以做判断:
r.headers['Content-Type']
# 或者
r.headers.get('Content-Type’)
如果我们想获得请求头(也就是我们向服务器发送的头信息)该怎么办呢?可以使用r.request.headers直接获得。
同时,我们在请求数据时也可以加上自定义的headers(通过headers关键字参数传递):
>>> headers = {'user-agent': 'myagent'}
>>> r= requests.get("http://pythontab.com/justTest",headers=headers)
六、关于Cookies
如果一个响应包含cookies的话,我们可以使用下面方法来得到它们:
>>> url = 'http://www.pythontab.com'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
‘example_cookie_value'
我们也可以发送自己的cookie(使用cookies关键字参数):
>>> url = 'http://pythontab.com/cookies'
>>> cookies={'cookies_are':'working'}
>>> r = requests.get(url, cookies=cookies)
七、关于重定向
有时候我们在请求url时,服务器会自动把我们的请求重定向,比如github
会把我们的http
请求重定向为https
请求。我们可以使用r.history
来查看重定向:
>>> r = requests.get('http://pythontab.com/')
>>> r.url
'https://pythontab.com/'
>>> r.history
[<Response [301]>, <Response [301]>]
从上面的例子中可以看到,我们使用http
协议访问,结果在r.url
中,打印的却是https
协议。那如果我非要服务器使用http
协议,也就是禁止服务器自动重定向,该怎么办呢?使用allow_redirects
参数:
r = requests.get('http://pythontab.com', allow_redirects=False)
八、关于请求时间
我们可以使用timeout
参数来设定url
的请求超时时间(时间单位为秒):
requests.get('http://pythontab.com', timeout=1)
九、关于代理
我们也可以在程序中指定代理来进行http
或https
访问(使用proxies
关键字参数),如下:
proxies = {
"http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",
}
requests.get("http://pythontab.com", proxies=proxies)
十、关于session
我们有时候会有这样的情况,我们需要登录某个网站,然后才能请求相关url
,这时就可以用到session
了,我们可以先使用网站的登录api
进行登录,然后得到session
,最后就可以用这个session
来请求其他url
了:
s=requests.Session()
login_data={'form_email':'youremail@example.com','form_password':'yourpassword'}
s.post("http://pythontab.com/testLogin",login_data)
r = s.get('http://pythontab.com/notification/')
print r.text
其中,form_email
和form_password
是豆瓣登录框的相应元素的name
值。