python爬虫requests库

在python编写的网络爬虫中, requests库应该是最常用的库了,这里总结了一些requests库常见的函数

requests库的基本方法:

  • requests.request()     构造一个请求, 支撑以下各方法的基础方法
  • requests.get()    获取HTML网页的主要方法, 对应于HTTP的GET
  • requests.head()    获取HTML网页头信息的方法, 对应于HTTP的HEAD
  • requests.post()    向HTML网页提交POST请求, 对应于HTTP的POST
  • requests.put()    向HTML网页提交PUT请求, 对应于HTTP的PUT
  • requests.patch()    向HTML网页提交局部更新请求, 对应于HTTP的patch
  • requests.delete()    向HTML网页提交删除请求, 对应于HTTP的DELETE

下面详细说以下这七种方法的语法和作用:

requests.request(method, url, **kwargs)

method: 请求方式

  • r = requests.request('GET', url, **kwargs)
  • r = requests.request('HEAD', url, **kwargs)
  • r = requests.request('POST', url, **kwargs)
  • r = requests.request('PUT', url, **kwargs)
  • r = requests.request('PATCH', url, **kwargs)
  • r = requests.request('DELETE' , url. **kwargs)
  • r = requests.request(''OPTIONS', url, **kwargs)   向服务器获取服务器可以和客户端打交道的参数(用到的较少)

其中各参数的含义和作用如下:

  • url: 请求页面的链接地址
  • **kwargs:控制访问的参数,共有13个,那么这13个参数分别对应的是什么呢?
  • params:字典或字节序列, 作为参数增加到url中,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中

例如:kv = {'key1: ' values',  'key2': 'values'}

            r = requests.request('GET', 'http:www.python123.io/ws', params=kw)

  • data:字典,字节序或文件对象,重点作为向服务器提供或提交资源是提交,,作为request的内容,与params不同的是,data提交的数据并不放在url链接里, 而是放在url链接对应位置的地方作为数据来存储。,它也可以接受一个字符串对象。
  • json:json格式的数据, json合适在相关的html,http相关的web开发中非常常见, 也是http最经常使用的数据格式, 他是作为内容部分可以向服务器提交。

例如:kv = {''key1': 'value1'}

           r = requests.request('POST', 'http://python123.io/ws', json=kv)

  • headers:字典是http的相关语,对应了向某个url访问时所发起的http的头i字段, 可以用这个字段来定义http的访问的http头,可以用来模拟任何我们想模拟的浏览器来对url发起访问。

例子: hd = {'user-agent': 'Chrome/10'}

            r = requests.request('POST', 'http://python123.io/ws', headers=hd)

  • cookies:字典或CookieJar,指的是从http中解析cookie
  • auth:元组,用来支持http认证功能
  • files:字典, 是用来向服务器传输文件时使用的字段。

例子:fs  = {'files': open('data.txt', 'rb')}

           r = requests.request('POST', 'http://python123.io/ws', files=fs)

  • timeout: 用于设定超时时间, 单位为秒,当发起一个get请求时可以设置一个timeout时间, 如果在timeout时间内请求内容没有返回, 将产生一个timeout的异常。
  • proxies:字典, 用来设置访问代理服务器。
  • allow_redirects: 开关, 表示是否允许对url进行重定向, 默认为True。
  • stream: 开关, 指是否对获取内容进行立即下载, 默认为True。
  • verify:开关, 用于认证SSL证书, 默认为True。
  • cert: 用于设置保存本地SSL证书路径

 

request方法对应的requests库中的方法:

  • requests.get(url, params=None, **kwargs)

url: 用于获取页面的url链接

params:url中的额外参数, 字典或字节流格式, 可选

**kwargs: 12个控制访问的参数, 见以上

  • requests.head(url, **kwargs)

url: 拟获取页面的url链接

**kwargs:  13个控制访问的参数, 见以上

  • requests.post(url, data=None, json=None, **kwargs)

url: 拟更新的url链接

data: 字典,字节序列或文件, Requests的内容

json:JSON格式的数据,Requests的内容

**kwargs: 11个控制访问的参数

  • requests.put(url, data=None, **kawrgs)

url:拟更新页面的url链接

data: 字典, 字节序列或文件, Requests的内容

**kwargs: 12个控制访问的参数

  • requests.patch(url, data=None, **kwargs)

url: 拟更新页面的url链接

data: 字典,字节序列或文件, Requests的内容

**kwargs: 12个控制访问的参数

  • requests.delete(url, **kwargs)

url: 拟访问页面的url链接

**kwargs: 13个控制访问的参数

 

其中这些方法中,get方法是这六个方法中最常用的方法,举个例子

#使用requests库get方法,抓取指定图片
# response_get=requests.get("图片地址")
# 将图片以png的形式存与文件中
# with open("firse.png","wb") as f:
#     f.write(response_get.content)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值