requests模块使用

转自 : https://blog.csdn.net/apollo_miracle/article/details/84769941

  1. requests模块的认识
  2. requests发送get请求
  3. requests获取响应数据
  4. requests发送带headers的请求
  5. requests发送带参数的请求
  6. requests发送POST请求
  7. requests使用代理
  8. requests处理cookie

2 requests模块的入门使用

2.1 为什么要重点学习requests模块,而不是urllib

  • requests的底层实现就是urllib
  • requests在python2 和python3中通用,方法完全一样
  • requests简单易用
  • requests能够自动帮助我们解压(gzip压缩的等)网页内容

2.2 requests的作用

作用:发送网络请求,返回响应数据

中文文档 : http://docs.python-requests.org/zh_CN/latest/index.html

通过观察文档来学习:如何使用requests来发送网络请求?

2.3 requests模块发送简单的请求、获取响应

需求:通过requests向百度首页发送请求,获取百度首页的数据

response = requests.get(url)

 
 

response的常用属性:

  • response.text
  • respones.content
  • response.status_code
  • response.request.headers
  • response.headers

思考:text是response的属性还是方法呢?

一般来说名词,往往都是对象的属性,对应的动词是对象的方法

2.3.1 response.text 和response.content的区别

  • response.text

    <ul><li>类型:str</li>
    	<li>解码类型: 根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码</li>
    	<li>如何修改编码方式:<code>response.encoding=”gbk”</code></li>
    </ul></li>
    <li>
    <p><code>response.content</code></p>
    
    <ul><li>类型:bytes</li>
    	<li>解码类型: 没有指定</li>
    	<li>如何修改编码方式:<code>response.content.deocde(“utf8”)</code></li>
    </ul></li>
    

获取网页源码的通用方式:

  1. response.content.decode()
  2. response.content.decode("GBK")
  3. response.text

以上三种方法从前往后尝试,能够100%的解决所有网页解码的问题

所以:更推荐使用response.content.deocde()的方式获取响应的html页面

2.3.2 练习:把网络上的图片保存到本地

思考:

  • 以什么方式打开文件
  • 保存什么格式的内容

 
 
  1. import requests
  2. url = "https://www.baidu.com/img/bd_logo1.png"
  3. resp = requests.get(url)
  4. with open( "baidulogo.png", "wb") as f:
  5. f.write(resp.content)

2.4 发送带header的请求

2.4.1 为什么请求需要带上header?

模拟浏览器,欺骗服务器,获取和浏览器一致的内容

2.4.2 header的形式

header的形式:字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

2.4.3 用法

requests.get(url,headers=headers)

2.5 发送带参数的请求

2.5.1 什么叫做请求参数

错误的列1: http://www.webkaka.com/tutorial/server/2015/021013/

正确的例2:https://www.baidu.com/s?wd=python&c=b

2.5.2 参数的形式

参数的形式:字典

kw = {'wd':'长城'}

2.5.3 用法

requests.get(url,params=kw)

2.5.4 关于参数的注意点

在url地址中,很多参数是没有用的,比如百度搜索的url地址,其中参数只有一个字段有用,其他的都可以删除

对应的,在后续的爬虫中,遇到很多参数的url地址,都可以尝试删除参数

2.6 作业

1.获取新浪首页,查看response.text 和response.content.decode()的区别

2.实现任意贴吧的爬虫,保存网页到本地

3 requests模块的深入使用

3.1 requests模块发送POST请求

3.1.1 哪些地方我们会用到POST请求:

  • 登录注册( POST 比 GET 更安全)
  • 需要传输大文本内容的时候( POST 请求对数据长度没有要求)

所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

3.1.2 使用requests模块发送post请求

  • 用法: response = requests.post("http://www.baidu.com/", data = data,headers=headers)

  • data 的形式:字典

3.2 使用代理

3.2.1 为什么要使用代理

  • 让服务器以为不是同一个客户端在请求

  • 防止我们的真实地址被泄露,防止被追究

3.2.2 理解使用代理的过程

3.2.3 理解正向代理和反向代理的区别

通过上图可以看出:

  • 正向代理:对于浏览器知道服务器的真实地址,例如VPN
  • 反向代理:浏览器不知道服务器的真实地址,例如nginx

3.2.4 代理的使用

  • 用法: requests.get("http://www.baidu.com", proxies = proxies)

  • proxies的形式:字典

  • 例如:


 
 
  1. proxies = {
  2. "http": "http://12.34.56.79:9527",
  3. "https": "https://12.34.56.79:9527",
  4. }

3.2.5 代理IP的分类

根据代理服务器端的配置,向目标地址发送请求时,REMOTE_ADDR, HTTP_VIA,HTTP_X_FORWARDED_FOR三个变量不同而可以分为下面四类:

  • 透明代理(Transparent Proxy)

    <pre class="has" name="code" onclick="hljs.copyCode(event)"><code class="language-python hljs"><ol class="hljs-ln"><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="1"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  REMOTE_ADDR = Proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="2"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_VIA = Proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="3"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_X_FORWARDED_FOR = Your IP</div></div></li></ol></code><div class="hljs-button {2}" data-title="复制"></div></pre>
    
    <p>透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。</p>
    </li>
    <li>
    <p>匿名代理(Anonymous Proxy)</p>
    
    <pre class="has" name="code" onclick="hljs.copyCode(event)"><code class="language-python hljs"><ol class="hljs-ln"><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="1"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  REMOTE_ADDR = proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="2"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_VIA = proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="3"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_X_FORWARDED_FOR = proxy IP</div></div></li></ol></code><div class="hljs-button {2}" data-title="复制"></div></pre>
    
    <p>匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。</p>
    </li>
    
  • 混淆代理(Distorting Proxies)

    <pre class="has" name="code" onclick="hljs.copyCode(event)"><code class="language-python hljs"><ol class="hljs-ln"><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="1"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  REMOTE_ADDR = Proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="2"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_VIA = Proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="3"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_X_FORWARDED_FOR = Random IP address</div></div></li></ol></code><div class="hljs-button {2}" data-title="复制"></div></pre>
    
    <p>如上,与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真</p>
    </li>
    <li>
    <p>高匿代理(Elite proxy或High Anonymity Proxy)</p>
    
    <pre class="has" name="code" onclick="hljs.copyCode(event)"><code class="language-python hljs"><ol class="hljs-ln"><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="1"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  REMOTE_ADDR = Proxy IP</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="2"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_VIA = <span class="hljs-keyword">not</span> determined</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="3"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  HTTP_X_FORWARDED_FOR = <span class="hljs-keyword">not</span> determined</div></div></li></ol></code><div class="hljs-button {2}" data-title="复制"></div></pre>
    
    <p>可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。</p>
    </li>
    

从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择

3.2.6 代理IP使用的注意点

  • 反反爬

    <p>使用代理ip是非常必要的一种<code>反反爬</code>的方式,但是即使使用了代理ip,对方服务器任然会有很多的方式来检测我们是否是一个爬虫</p>
    
    <p>比如:</p>
    
    <ul><li>
    	<p>一段时间内,检测IP访问的频率,访问太多频繁会屏蔽</p>
    	</li>
    	<li>
    	<p>检查Cookie,User-Agent,Referer等header参数,若没有则屏蔽</p>
    	</li>
    	<li>
    	<p>服务方购买所有代理提供商,加入到反爬虫数据库里,若检测是代理则屏蔽</p>
    
    	<p>所以更好的方式是购买质量更高的代理,或者自己搭建代理服务器,组装自己的<code>代理IP池</code>,同时在使用的时候使用随机的方式进行选择使用,不要每次都用一个代理ip,没事没有任何效果的</p>
    	</li>
    </ul></li>
    <li>
    <p>代理ip池的更新</p>
    
    <p>购买的代理ip很多时候大部分(超过60%)可能都没办法使用,这个时候就需要通过程序去检测哪些可用,把不能用的删除掉。对应的实现方式在我们学习了<code>超时参数的使用</code>之后大家会了解</p>
    </li>
    <li>
    <p>面试</p>
    
    <p>很多时候面试官会了解自己项目中的代理ip的使用情况,比如:代理ip池的大小,代理ip的更新时间,代理ip中可用的代理ip的比例等等,这些都是开放性的问题,面试官了解的时候估计是自己的代理ip池用的不爽 :)</p>
    </li>
    

4 requests模块处理cookie相关的请求

4.1 使用requests处理cookie相关的请求

4.1.1 回顾cookie和session的区别

  • cookie数据存放在客户的浏览器上,session数据放在服务器上。
  • cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。
  • session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能。
  • 单个cookie保存的数据不能超过4K,很多浏览器都限制一个站点最多保存20个cookie。

4.1.2 爬虫中为什么要使用cookie

  • 带上cookie的好处
    • 能够访问登录后的页面
    • 正常的浏览器在请求服务器的时候肯定会带上cookie(第一次请求某个地址除外),所以对方服务器有可能会通过是否携带cookie来判断我们是否是一个爬虫,对应的能够起到一定的反爬的效果
  • 带上cookie的坏处
    • 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能性被对方识别为爬虫
    • 那么上面的问题如何解决?使用多个账号

4.1.3 requests处理cookie相关的请求之session

  • requests 提供了一个叫做session类,来实现客户端和服务端的会话保持

  • 会话保持有两个内涵:

    <ul><li>保存cookie</li>
    	<li>实现和服务端的长连接</li>
    </ul></li>
    
  • 使用方法

    <pre class="has" name="code" onclick="hljs.copyCode(event)"><code class="language-python hljs"><ol class="hljs-ln"><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="1"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  session = requests.session()</div></div></li><li><div class="hljs-ln-numbers"><div class="hljs-ln-line hljs-ln-n" data-line-number="2"></div></div><div class="hljs-ln-code"><div class="hljs-ln-line">  response = session.get(url,headers)</div></div></li></ol></code><div class="hljs-button {2}" data-title="复制"></div></pre>
    
    <p>session实例在请求了一个网站后,对方服务器设置在本地的cookie会保存在session中,下一次再使用session请求对方服务器的时候,会带上前一次的cookie</p>
    </li>
    <li>
    <p>动手:</p>
    
    <p>动手尝试使用session来登录人人网:&nbsp;<code>http://www.renren.com/PLogin.do</code>(先不考虑这个url地址从何而来),请求体的格式:<code>{"email":"username", "password":"password"}</code></p>
    </li>
    

4.1.4 requests处理cookie相关的请求之cookie放在headers中

了解headers中cookie

  • headers中的cookie:
    • 使用分号+空格(; )隔开
    • 分号两边的类似a=b形式的表示一条cookie
    • a=b中,a表示键(name),b表示值(value)
    • 在headers中仅仅使用了cookie的name和value

cookie的具体组成的字段

由于headers中对cookie仅仅使用它的name和value,所以在代码中我们仅仅需要cookie的name和value即可

在headers中使用cookie


 
 
  1. headers = {
  2. "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
  3. "Cookie": " Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}
  4. requests.get(url,headers=headers)

cookie有过期时间,所以直接复制浏览器中的cookie可能意味着下一程序继续运行的时候需要替换代码中的cookie,对应的我们也可以通过一个程序专门来获取cookie供其他程序使用;当然也有很多网站的cookie过期时间很长,这种情况下,直接复制cookie来使用更加简单

4.1.5 requests处理cookie相关的请求之使用cookies参数

  • cookies的形式:字典
cookies = {"cookie的name":"cookie的value"}

 
 
  • 使用方法:
requests.get(url, headers=headers, cookies=cookie_dict}

 
 

4.2 人人网登录之js分析流程

4.2.1 人人网登陆过程中url地址哪里找?

在前面的人人网登陆过程中,我们找到了一个登陆接口,那么这个接口从哪里找到的呢?

可以发现,这个地址就是在登录的form表单中action对应的url地址,也就是进行表单提交的地址。

对应的,提交的数据,仅仅需要:

  • 用户名input标签中,name的值作为键,用户名作为值,
  • 密码input标签中,name的值作为键,密码作为值即可

4.2.2 如果action对应的没有url地址的时候可以怎么做?

通过抓包寻找登录的url地址

通过抓包可以发现,在这个url地址和请求体中均有参数,比如uniqueTimestamprkey以及加密之后的password

这个时候我们可以观察手机版的登录接口,是否也是一样的

可以发现在手机版中,依然有参数,但是参数的个数少一些,这个时候,我们可以使用手机版作为参看,来学习如何分析js

4.3 js分析之查看js的位置

4.3.1 观察按钮的绑定js事件

通过点击按钮,然后点击Event Listener,部分网站可以找到绑定的事件,对应的,只需要点击即可跳转到js的位置

4.3.2 通过search all file 来搜索

部分网站的按钮可能并没有绑定js事件监听,那么这个时候可以通过搜索请求中的关键字来找到js的位置,比如livecell

点击美化输出选项

可以继续在其中搜索关键字

4.4 js分析之观察js的执行过程

找到js的位置之后,我们可以来通过观察js的位置,找到js具体在如何执行,后续我们可以通过python程序来模拟js的执行,或者是使用类似js2py直接把js代码转化为python程序去执行

观察js的执行过程最简单的方式是添加断点

添加断点的方式:在左边行号点击即可添加,对应的右边BreakPoints中会出现现有的所有断点

添加断点之后继续点击登录,每次程序在断点位置都会停止,通过如果该行有变量产生,都会把变量的结果展示在Scoope中

在上图的右上角有1,2,3三个功能,分别表示:

  • 1:继续执行到下一个断点
  • 2:进入调用的函数中
  • 3:从调用的函数中跳出来

4.5 执行js

js也是一门动态的语言,所以在运行的时候需要js的解释器,目前现有的类似js2py的工具都不是特别完善,对于简单的js可以运行,但是复杂的是处理不了的

通过后面的接触大家会发现,很多js都是进过混淆和加密的,即在js的源码中我们会发现大量的命名为a,b,c,d的函数和变量,对于这种情况,如果必须去分析js,那么肯定是非常头大的,但是在后面的课程中,我们会学习通过程序其控制浏览器的方式操作网页、获取数据,这个方法会更加简单。所以在这里我们需要掌握js的分析过程即可。

5 requests模块的其他方法

5.1 requests模块获取cookie

requests.utils.dict_from_cookiejar:把cookiejar对象转化为字典


 
 
  1. import requests
  2. url = "http://www.baidu.com"
  3. response = requests.get(url)
  4. print(type(response.cookies))
  5. cookies = requests.utils.dict_from_cookiejar(response.cookies)
  6. print(cookies)

输出为:


 
 
  1. < class 'requests.cookies.RequestsCookieJar'>
  2. {'BDORZ': '27315'}

在前面的requests的session类中,我们不需要处理cookie的任何细节,如果有需要,我们可以使用上述方法来解决

5.2 requests处理证书错误

经常我们在网上冲浪时,经常能够看到下面的提示:

出现这个问题的原因是:ssl的证书不安全导致

那么如果在代码中请求会怎么样呢?


 
 
  1. import requests
  2. url = "https://www.12306.cn/mormhweb/"
  3. response = requests.get(url)

返回

ssl.CertificateError ...

 
 

为了在代码中能够正常的请求,我们修改添加一个参数


 
 
  1. import requests
  2. url = "https://www.12306.cn/mormhweb/"
  3. response = requests.get(url,verify= False)

5.3 超时参数的使用

在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果

对应的,在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错

使用方法如下:

response = requests.get(url,timeout=3)
 
 

通过添加timeout参数,能够保证在3秒钟内返回响应,否则会报错

注:这个方法还能够拿来检测代理ip的质量,如果一个代理ip在很长时间没有响应,那么添加超时之后也会报错,对应的这个ip就可以从代理ip池中删除

5.4 retrying模块的使用

上述方法能够加快我们整体的请求速度,但是在正常的网页浏览过成功,如果发生速度很慢的情况,我们会做的选择是刷新页面,那么在代码中,我们是否也可以刷新请求呢?

对应的,retrying模块就可以帮助我们解决

  • retrying模块的地址:https://pypi.org/project/retrying/

  • retrying 模块的使用

    <ul><li>使用retrying模块提供的retry模块</li>
    	<li>通过装饰器的方式使用,让被装饰的函数反复执行</li>
    	<li>retry中可以传入参数<code>stop_max_attempt_number</code>,让函数报错后继续重新执行,达到最大执行次数的上限,如果每次都报错,整个函数报错,如果中间有一个成功,程序继续往后执行</li>
    </ul></li>
    

所以我们可以结合前面的知识点和retrying模块,把我们需要反复使用的请求方法做一个简单的封装,在后续任何其他地方需要使用的时候,调用该方法就行

代码参考


 
 
  1. # parse.py
  2. import requests
  3. from retrying import retry
  4. headers = {}
  5. @retry(stop_max_attempt_number=3) #最大重试3次,3次全部报错,才会报错
  6. def _parse_url(url)
  7. response = requests. get (url, headers=headers, timeout=3) #超时的时候回报错并重试
  8. assert response. status_code == 200 #状态码不是200,也会报错并充实
  9. return response
  10. def parse_url (url)
  11. try: #进行异常捕获
  12. response = _parse_url(url)
  13. except Exception as e:
  14. print(e)
  15. response = None
  16. return response

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值