2、requests

一、基本用法

1、简单例子

urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法。

import requests

r = requests.get('https://wwww.baidu.com')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

这里我们调用get()方法实现与urlopen()相同的操作,得到一个Response对象,然后分别输出了Response的类型、状态码、响应体的类型、内容以及Cookies。
通过运行结果可以发现,它的返回类型是requests.models.Response,响应体的类型是字符串str,Cookies的类型是RequestsCookieJar

运行结果

<class 'requests.models.Response'>
200
<class 'str'>
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç™¾åº¦ä¸€ä¸‹ï¼Œä½ å°±çŸ¥é“</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>æ–°é—»</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地图</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>视频</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>贴吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登录</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">登录</a>');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">更多产品</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>å
³äºŽç™¾åº¦</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使用百度前å¿
读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

其他的请求类型依然可以用一句话来完成,如下

r = requests.post('http://httpbin.org/post')
r = requests.put('http://httpbin.org/put')
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')
r = requests.options('http://httpbin.org/get')

2、GET请求
首先,构建一个最简单的GET请求,该网站会判断如果客户端发起的是GET请求的话,它返回相应的请求信息。

import requests

r = requests.get('http://httpbin.org/get')
print(r.text)

运行结果

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.14.2"
  }, 
  "origin": "222.76.251.164, 222.76.251.164", 
  "url": "https://httpbin.org/get"
}

3、对于GET请求附加额外信息

import requests

data={
    'name':'wangxiaoyu',
    'age':'18'
}
r=requests.get("http://httpbin.org/get",params=data)
print(r.text)

运行结果

{
  "args": {
    "age": "18", 
    "name": "wangxiaoyu"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.14.2"
  }, 
  "origin": "222.76.251.164, 222.76.251.164", 
  "url": "https://httpbin.org/get?name=wangxiaoyu&age=18"
}

通过运行结果可以判断,请求的链接自动被构造成了https://httpbin.org/get?name=wangxiaoyu&age=18。
另外,网页的返回类型实际上是str类型,但是它很特殊,是JSON格式的。所以,如果是直接解析返回结果,得到一个字典格式的话,可以直接调用json()方法。调用json()方法,就可以将返回结果是JSON格式的字符串转为字典。

import requests

r = requests.get("http://httpbin.org/get")
print(type(r.text))
print(r.json())
print(type(r.json()))

4、抓取网页

加入header信息,其中包含User-Agent字段信息,也就是浏览器标识,抓取知乎发现页面

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.text)
print(titles)

运行结果

['\n机器学习方向的研究生是否需要学习研发岗知识?\n', '\n如何看待P30系列4月11到4月30仅20天中国区销量突破210万台?\n', '\n从哪里开始觉得罗云熙真的在用心塑造角色?\n', '\n为什么大家的吸猫热情越来越高涨?\n', '\n有见过罗云熙本人的吗,感觉怎么样?\n', '\n如何看待杨超越向海里吐口水的行为?\n', '\n家里面有哪个亲戚令你感到恶心?\n', '\n程序员们有些什么好玩儿的程序分享?\n', '\n有哪些句子是真正写到你的心里去了?\n', '\nVariational autoencoder 这个名称中的 variational 是什么意思?\n']

5、抓取二进制数据

在上面的例子中,我们抓取的是知乎的一个页面,实际上它返回的是一个HTML文档,而图片、音频、视频等文件本质上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,我们才可以看到这些形形色色的多媒体。所以想要抓取它们,就要拿到它们的二进制码。

5.1抓取GitHub的站点图标

import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

运行结果
前两行是是r.text的结果,最后一行是r.content的结果
在这里插入图片描述
5.2 将图片保存

import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

运行结果,文件夹中创建了图片
在这里插入图片描述

6、POST请求

import requests

data = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

运行结果
成功获得了返回结果,其中form部分就是提交的数据。

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "22", 
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "18", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.14.2"
  }, 
  "json": null, 
  "origin": "222.76.251.164, 222.76.251.164", 
  "url": "https://httpbin.org/post"
}

7、响应
发送请求后,得到的自然就是响应。使用text和content获取响应的内容,还可以获取状态码、响应头、Cookies等,示例如下

import requests

r = requests.get('http://www.jianshu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)

运行结果

<class 'int'> 403
<class 'requests.structures.CaseInsensitiveDict'> {'Server': 'Tengine', 'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Wed, 15 May 2019 03:15:22 GMT', 'Vary': 'Accept-Encoding', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Content-Encoding': 'gzip', 'x-alicdn-da-ups-status': 'endOs,0,403', 'Via': 'cache13.l2cm12[5,0], cache10.cn1860[15,0]', 'Timing-Allow-Origin': '*', 'EagleId': '77bcd71e15578901229494928e'}
<class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[]>
<class 'str'> https://www.jianshu.com/
<class 'list'> [<Response [301]>]

二、高级用法

1、文件上传
使用前面保存的图片文件

import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

运行结果
form字段为空,证明文件上传部分会有一个单独的files字段来标识

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "data:application/octet-stream;base64,
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "6665", 
    "Content-Type": "multipart/form-data; boundary=754a366ffeb645e083b5190681fced6b", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.14.2"
  }, 
  "json": null, 
  "origin": "222.76.251.164, 222.76.251.164", 
  "url": "https://httpbin.org/post"
}

2、Cookies

2.1 获取Cookies过程

import requests

r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
    print(key + '=' + value)

运行结果
首先调用cookies属性得到Cookies,可以发现它是RequestCookieJar类型。然后用items()方法将其转化为元祖组成的列表,遍历每一个Cookie的名称和值。

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315

2.2 直接用Cookies维持登录状态
以知乎为例,首先登录知乎,将Headers中的Cookie内容复制下来。
在这里插入图片描述
使用自己的Cookies将其设置到Headers中,然后发送请求

import requests

headers = {
    'Cookie': 'tgw_l7_route=66cb16bc7f45da64562a077714739c11; _zap=f31789a2-dfe6-429d-bfdf-3c2d15963153; _xsrf=27A9BF6KnErrcoi8WWwCnZd8zHia5Em0; d_c0="APBnL614bg-PTn-4GecTq2t1oi5jtNbRNHA=|1557891647"; capsion_ticket="2|1:0|10:1557891659|14:capsion_ticket|44:ZDc5YTgzNGU0N2IxNDExYzhmYWRmN2E2ODkzMzhjMmE=|753b6596d1e2a67286e0b26c72650cc6c40249ac1ff6a8124ba1fbeb5a42aa28"; z_c0="2|1:0|10:1557891693|4:z_c0|92:Mi4xcTZCVkNRQUFBQUFBOEdjdnJYaHVEeVlBQUFCZ0FsVk5iZGpJWFFCU1psVWtiOUYzak9nb20wcTlsdTV2MDRXRmhB|4cedd2e234a7887ec499035b0069eeebb2cb9048f948220d353b89c61f65c50f"; unlock_ticket="ANDgkXKfkQ0mAAAAYAJVTXWR21ysf61oOHXbXHVt8BxbJlC72wzTlw=="; tst=r; q_c1=bae0445b930e4068ae27daf859c1ef0c|1557891695000|1557891695000tgw_l7_route=66cb16bc7f45da64562a077714739c11; _zap=f31789a2-dfe6-429d-bfdf-3c2d15963153; _xsrf=27A9BF6KnErrcoi8WWwCnZd8zHia5Em0; d_c0="APBnL614bg-PTn-4GecTq2t1oi5jtNbRNHA=|1557891647"; capsion_ticket="2|1:0|10:1557891659|14:capsion_ticket|44:ZDc5YTgzNGU0N2IxNDExYzhmYWRmN2E2ODkzMzhjMmE=|753b6596d1e2a67286e0b26c72650cc6c40249ac1ff6a8124ba1fbeb5a42aa28"; z_c0="2|1:0|10:1557891693|4:z_c0|92:Mi4xcTZCVkNRQUFBQUFBOEdjdnJYaHVEeVlBQUFCZ0FsVk5iZGpJWFFCU1psVWtiOUYzak9nb20wcTlsdTV2MDRXRmhB|4cedd2e234a7887ec499035b0069eeebb2cb9048f948220d353b89c61f65c50f"; unlock_ticket="ANDgkXKfkQ0mAAAAYAJVTXWR21ysf61oOHXbXHVt8BxbJlC72wzTlw=="; tst=r; q_c1=bae0445b930e4068ae27daf859c1ef0c|1557891695000|1557891695000',
    'Host': 'www.zhihu.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

3、会话维持

3.1、简单测试
这里我们请求了一个测试网址httpbin.org/cookies/set/number/123456789,请求这个网址时,可以设置一个cookie,名称为number,内容是123456789,随后又请求了http://httpbin.org/cookies,此网址可以获取当前的Cookies

import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

运行结果
可以看到并没有获取到设置的Cookies

{
  "cookies": {}
}

3.2、使用Session对象

import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

运行结果
成功获取了,利用Session,可以做到模拟同一个会话而不用担心Cookies的问题。它通常用于模拟登陆成功之后再进行下一步的操作,可以用于模拟在一个浏览器中打开同一站点的不同页面。

{
  "cookies": {
    "number": "123456789"
  }
}

4、SSL证书验证
requests还提供了证书验证的功能。当发送HTTP请求的时候,它会检查SSL证书,我们可以使用verify参数控制是否检查此证书。如果不加verify参数的话,默认是True,会自动验证。

12306的证书现在好像已经被官方CA机构信任了,所以书上的例子用不了,先记一下。

import requests

response = requests.get('https://www.12306.cn')
print(response.status_code)


response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

可能会收到警告建议指定证书,可以设置忽略警告

import requests
from requests.packages import urllib3

urllib3.disable_warnings()
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)
import logging
import requests
logging.captureWarnings(True)
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

也可以指定一个本地的证书用作客户端证书,可以是单个文件(包含密钥和证书)或一个包含两个文件路径的元组。

import requests

response = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(response.status_code)

5、代理设置

5.1、基本设置

import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('https://www.taobao.com', proxies=proxies)

5.2 、代理如果需要使用HTTP Basic Auth,可以使用类似http://user:password@host:port这样的语法来设置代理,示例如下

import requests

proxies = {
    'https': 'http://user:password@10.10.1.10:3128/',
}
requests.get('https://www.taobao.com', proxies=proxies)

5.3、requests还支持SOCKS协议的代理,示例如下

import requests

proxies = {
    'http': 'socks5://user:password@host:port',
    'https': 'socks5://user:password@host:port'
}
requests.get('https://www.taobao.com', proxies=proxies)

6、超时设置

6.1、
设置一个超时时间,超过了这个时间还没有得到响应,那就报错。

import requests

r = requests.get('https://www.taobao.com', timeout=1)
print(r.status_code)

6.2
实际上,请求分为两个阶段,即连接(connect)和读取(read),如果要分别指定,可以传入一个元组。

r = requests.get('https://www.taobao.com', timeout=(5,11,30))

6.3
如果想永久等待,可以设置为None或直接留空,默认是None。

7、身份认证

用户名和密码正确的话,请求就会自动认证,会返回200状态码;如果认证失败,则返回401状态码。

import requests

r = requests.get('http://10.0.0.150', auth=('wangxiaoyu', '123456'))
print(r.status_code)

8、Prepared Request
前面介绍urllib时,可以将请求表示为数据结构,其中各个参数都可以通过一个Request对象来表示。这在requests里同样可以做到,这个数据结构就叫Prepared Request。

from requests import Request, Session

url = 'http://httpbin.org/post'
data = {
    'name': 'germey'
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

运行结果
这里引用了Request,然后用url、data和headers参数构造了一个Request对象,这时需要再调用Session的prepare_request()方法将其转化为一个Prepared Request对象,然后调用send()方法发送即可。
有了Request对象,就可以将请求当作独立的对象来看待,这样在进行队列调度时会非常方便。

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36"
  }, 
  "json": null, 
  "origin": "222.76.251.164, 222.76.251.164", 
  "url": "https://httpbin.org/post"
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值