爬虫之requests

一、基本用法

1.GET请求

①r=requests.get(url) --返回Response对象

def get(url, params=None, **kwargs):

params={... },还可增加头信息如requests.get(url,headers={...})

如果r是JSON格式的字符串,可以调用r.json()转化为字典,若不是JSON格式,则json.decoder.JSONDecoderError

②抓取网页

r.text可以获取网页信息,并且为字符串类型

③抓取二进制数据

r.content可以获取二进制数据,如图片、音频、视频等文件

④添加headers

requests.get(url,headers={...}) ---伪装成浏览器

2.POST请求

def post(url, data=None, json=None, **kwargs):

requests.post(url,data={...})

3.响应

r.status_code   --返回int类型  100信息性  200成功 300重定向 400客户端错误 500服务端错误 

r.headers  --返回CaseInsensitiveDict类型

r.cookies  --返回RequestsCookieJar类型

r.url --返回str类型

r.history --返回list类型

requests.codes ---requests内置的状态码查询对象 如requests.codes.ok 为 200

二、高级用法

1.文件上传 ---post方法的file关键字

files={"file":open("路径","rb")}

r=requests.post(url,files=files)

2.Cookies

 ①获取cookies

r.cookies
for k,v in r.cookies.itemes():
    print(k+'='+v)  

 ②设置cookies

直接在headers={'Cookie':...}里加上cookies

也可以通过cookies关键字来设置,不过先要构造RequestCookieJar对象

jar=requests.cookies.RequestCookieJar()
cookies=...
for cookie in cookies.split(';')
    k,v=cookie.split('=',1)
    jar.set(k,v)
r=requests.get(url,cookies=jar,headers=...)

3.会话维持

直接用get()或post()相当于不同的绘画,等于用两个不同的浏览器打开页面,每次都要设置cookie时很繁琐.

session相当于打开一个新的浏览器选项卡而不是一个新的浏览器,利用session可以用于模拟成功登陆成功之后再进行下一步操作

s=requests.Session()
s.get(url)
...

4.SSL证书验证

如12306的证书没有被CA机构信任,用requests访问会出现requests.exceptions.SSLError

①只需把verify参数设置为False即可

requests.get(url,verify=False)

 不过有警告,可以使用requests.packages下的urllib3模块  urllib3.disable_warnings() 或者 捕获到logging模块的日志 logging.captureWarnings(True)

②使用本地证书

requests.get(url,cert='包含密钥和证书的单个文件路径')
#或
requests.get(url,cert=('cert文件路径1','key文件路径2')) #key必须是解密状态

5.代理设置

设置proxies参数

proxies={
      'http':'http://10.0.0.1:3228',
          'https':'https://10.0.0.1:3028',
         }
requests.get(url,proxies=proxies)      

 若代理需要设置HTTP Basic Auth,可以使用类似http://user:password@host:port的格式来设置

proxies={'http':'http://user:password@10.0.0.1:3128',}

 requests还支持SOCK协议的代理,首先安装 pip3 install 'requests[socks]'

proxies={
     'http':'http':'socks5://user:password@10.0.0.1:3128',
       'https':'https':'socks5://user:password@10.0.0.1:3128',
     } 

6.超时设置  

 timeout参数,默认为None,永久等待

request.get(url,timeout=1)

7.身份认证

使用HTTPBasicAuth类

import requests.auth import HTTPBasicAuth

requests.get(url,auth=HTTPBasicAuth('username','password')) 或 requests.get(url,auth=('username','password')) 默认使用HTTPBasicAuth类

requests还提供了其他认证方式,如OAuth认证,pip install requests_oauthlib ...

8.Prepared Request

from requests import Request,Session
url='...'
data={...}
headers={...}
s=Session()
req=Request('POST',url,data=data,headers=headers)
prepped=s.prepare_request(req)
r=s.send(prepped)

 有了Request对象,就可以将请求作为独立的对象来看待,对于构造Request队列非常方便

 

本文参考文献:[1]崔庆才.python3网络爬虫开发实战[M].北京:人民邮电出版社,2018:122-138.

 

  

  

posted on 2018-11-19 11:05  我很好u 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/jyh-py-blog/p/9981996.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值