requests库详解

request库,主要用于网络爬虫

首先通过pip install request安装request库

写一个简单的入门程序,访问以下百度首页:

import requests
r = requets.get('http:://www.baidu.com')
r.encoding = 'utf-8'
print r.text
print r.statuscode

request库一共有7个主要方法

  • requests.request():构造一个请求
  • requests.get():获取网页
  • requests.head():获取网页头信息
  • requests.post():向网页提交post方法
  • requests.put():向网页提交put方法
  • requests.patch():向网页提交局部修改请求
  • requests.delete():向网页提交删除请求

最常见的五个网页response属性:

  • status_code:200表示成功
  • text:http响应内容的字符串形式
  • encoding:从http header中猜测的响应内容编码方式
  • apparent_encoding:从内容解析出的响应内容编码方式(备选编码方式)
  • r.content:响应内容的二进制形式

一般是先判断status_code,如果是200再进行找text和content

requests库可以看做只有一个函数,那就是requests.request()方法,只是第一个参数分别换为'GET','POST'等等。

request参数一共有如下13个字段:

  1. params:获取网页的方法
  2. data:字典,字节序列或文件
  3. json
  4. headers参数可以模拟浏览器,
  5. cookies可以从http协议中解析cookie,
  6. auth:提供http认证
  7. timeout指设置的超时时间,proxies设置代理服务器(字典类型)
  8. allow_redirects:是否允许重定向
  9. stream:内容立即下载开关
  10. verify:认证ssl开关
  11. cert:本地存放正数地址

基础的网页爬取代码框架:

try:
  r = requests.get(url, timeout=30)
  r.raise_for_status()
  r.encoding = r.apparent_encoding
  return r.text
except:
  return u'产生异常'

首先用request.get获取网页内容,同时设置timeout为30,r.raise_for_status()表示如果状态码不为200则报异常,设置encoding方式为apparent_encoding,最后返回r.text

一定要在try,except里面进行,网页访问是常常出错的

使用Beautifulsopu解析网页

主要是用于网页代码解析,第一个参数指定网页代码,第二个参数指定使用的解析器

一共有4类常用的解析器:分别是'html.parser','lxml'要先安装lxml, 'xml'要先安装lxml,'html5lib'要先安装html5lib

用法如下:

Beautifulsoup(r.text,'html.parser')

Beautifulsoup的基本元素

  • tag:标签<></>
  • name:标签的名字
  • Attribute:标签的属性,字典形式,格式<tag>.attrs
  • NavigableString:标签内分数性字符串<tag>.attrs
  • Comment:标签内字符串的注释部分

96633935.jpg

一共有3种遍历方式,上行,下行,平行遍历

  1. 下行遍历有3种

    • .contents:子节点的列表,将所有儿子节点存入列表
    • children:子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
    • .descendants:子孙节点的迭代烈性,包含所有子孙节点,用于循环遍历
  2. 上行遍历有2种

    • .parent:节点的父亲标签
    • .parents:节点先辈标签的迭代类型,用于循环遍历先辈节点

    上行遍历的代码

    soup = BeautifulSoup(demo, 'html.parser')
    for parent in soup.a.parents:
      if parent is None:
        print(parent)
      else:
        print(parent.name)
  3. 平行遍历有4种

    • .next_sibling:返回按照HTML文本书序的下一个平行节点标签
    • .previous_sibling:上一个平行节点标签
    • next_siblings:迭代类型,返回后续所有平行节点标签
    • previous_siblings:迭代类型,返回前续所有平行节点标签

prettyfy方法用于更好地打印标签

数据标记

  1. xml:类似于HTML格式

  2. json:JavaScript object notation,用键值对的形式记录数据,比如

    "name" : "xi'an jiaotong"
    "address": "xi'an"
    # 用大括号表示嵌套的键值对
    "university{
       "name": "jiaotong",
       "address":"xi'an"
       }

    json的键值对都是有类型的

  3. yaml格式是无类型的,用缩进进行所属,用法:

uninversity:
name: xi'an
address: beijing
#用 | 表示整块数据
text: |
这是一大段话xxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxx
xxxxxxxxx
# 用-表示并列所属关系
name:
-交通大学
-先交大

## 通过BeautifulSoup数据获取

通过find_all函数找到所有的标签,通过.get获得某个具体的属性

soup = BeautifulSoup(r.text,'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

如果查找多个标签,可以把标签部分用列表放入soup.find_all(['a','b'])

第二个参数可以放属性,比如id=link1

第三个参数是recursive:表示是否对子孙节点进行检索,默认为是

第四个参数是string,查找某个string,结合正则表达式可以进行搜索

同样,find_all也有find,find_parent,find_next_sibling之类的方法

格式化输出时如果遇到中文不对齐的情况:用chr(12288)作为填充:

print("{0:^10} \t {1:{3}^10} \t {2:{3}^10}".format('排名','学校名称','省市',chr(12288)))

转载于:https://www.cnblogs.com/drawon/p/8520593.html

### 回答1: Pythonrequests是一个用于发送HTTP请求的Python第三方。它可以方便地发送HTTP/1.1请求,并且支持许多HTTP协议的高级功能,如Cookie、SSL/TLS验证、代理等。requests的使用非常简单,可以轻松地发送GET、POST、PUT、DELETE等请求,并且可以方便地处理响应结果。此外,requests还支持会话管理、文件上传、流式请求等高级功能,是Python中最常用的HTTP请求之一。 ### 回答2: Python中的requests是一个非常流行的,用于向URL发送各种HTTP请求。它包含了许多强大的功能,例如支持HTTP和HTTPS协议、文件上传、Cookie和Session等。该的使用方式简单、直接。 Requests的主要功能如下: 1.发送HTTP GET和POST请求 2.支持HTTP和HTTPS协议 3.支持文件上传和下载 4.支持Cookies和Session 5.支持HTTP代理 6.支持URL重定向和认证 7.支持HTTP链接和请求超时设置 8.支持用户自定义参数和头部信息 请求数据: requests的get和post方法是最常用的两种HTTP请求方法。下面是这两种方法的语法格式: response = requests.get(url, params=None, **kwargs) response = requests.post(url, data=None, json=None, **kwargs) - url: 需要请求的API地址; - params: 使用一个字典对象,将请求的键值对以字典的形式传给API; - data: 字符串或字节型数据,将数据作为请求主体提交给API; - json: JSON格式的数据,将数据以JSON的格式作为请求主体提交给API。 响应数据: 响应对象是请求方法的返回值,对于任何的HTTP请求,服务器都会返回一个响应结果。响应结果的包含了HTTP状态码、响应头部以及响应主体。 状态码: HTTP状态码表示了服务器对请求的响应结果类型。可以通过响应对象的.status_code属性获取响应的状态码; 响应头: 在请求的响应中,服务器会返回HTTP头部信息。可以通过响应对象的headers属性获取响应头部信息; 响应内容: 响应内容是服务器对于请求的响应结果主体信息。可以通过响应对象的.text属性获取响应内容。 异常处理: 在Python请求中,HTTP请求可能会发生多种错误,例如请求超时、服务器错误等。这些错误可以通过异常处理来处理。为了确保正常的运行,程序员需要使用try和except语句来捕获异常。对于错误,Requests引发的所有异常都派生自requests.exceptions.RequestException类。 请求头设置: HTTP头部是在HTTP请求过程中传输的关键信息。其中包括了客户端User-Agent、请求日期、请求主体等。在Requests中,可通过headers传入一个字典对象,将键值对以字典的形式传给API。其中,我们可以进行自定义设置, 添加自定义Header头。 请求超时: 请求超时是为了防止请求过程中出现无限期的阻塞,我们可以通过传递一个元结构timeout到对象上来实现请求超时的功能,即如果在timeout(即等待目标服务器响应的时间,秒)的时间内没有得到响应,则会引发一个异常exceptions.TimeoutAlert 。 处理URL重定向: 在许多情况下,API服务提供者为某些请求跳转到新的URL。支持两种状态码,即301和302。为了处理这种自动跳转重定向状态码,Requests提供了支持,我们可以使用其属性allow_redirects。这个属性用于允许重定向,直接设置为True即可。 如果不需要重定向,则直接设置为False。 维持会话: Requests还允许我们在应用程序代码中保持状态,使用requests.Session 会话上下文,以便在同一网站的许多请求之间保留Cookie和Header等信息。会话上下文假定通过使用session的方法和属性,将HTTP请求连接到会话之后进行处理。它会维护不断的状态,直到要关闭所有连接或超时时间到达。例如: import requests #创建一个会话对象 session=requests.Session() #发送请求,requests将会自动保存所有的Cookies值 session.get('http://httpbin.org/cookies/set/sessioncookie/123456789') #获取Cookies值 r=session.get('http://httpbin.org/cookies') print(r.text) 代理设置: 我们可以通过传递proxies 字典属性到requests中,来创建代理服务器。proxies字典对象应包含键值对,其中键是指定的代理协议,值是代理服务器的URI。 证书验证: 默认情况下,Requests会对SSL证书进行验证。如果证书无效或存在问题,则会引发异常。要停用这种验证,我们可以将verify属性设置为False。可以通过将verify属性设置为一个字符串‘ca.pem’或者一段路径使其指向一个.pem的证书,进而进行需求SSL验证。 以上是Requests的一些常见用例及方法,尽管Requests很方便,但是一定要在用之前小心操作,避免发送一些敏感的用户信息甚至是病毒等,对目标服务器造成不必要的伤害,这是任何时候都不能被允许的。 ### 回答3: Python是一种非常流行的编程语言,其在网络编程中的应用也非常广泛。Python RequestsPython第三方中实现HTTP协议的之一,它使得Python程序能够很方便地发送HTTP请求和接收HTTP响应。Requests的常用方法有.get()、post()、put()、delete()等,它们可以实现相应的HTTP请求方式。 Requests的核心是Session类,它可以一次打开一个长期的连接,自动处理cookies,从而为高性能页面下载提供了帮助。它还可以设置一个连接池,对于频繁的请求可直接重用此连接池,提高程序的效率。 Requests使用起来非常方便,在使用前需要导入,然后创建Request对象,设置相应的HTTP请求参数,调用方法发送请求,并接收响应。对于常用的HTTP请求头信息,Requests提供了方便的请求头字典,可以很方便地设置请求头信息。 Requests的常见应用场景有爬虫、测试、接口测试和访问多种Web服务接口等。它非常适用于需要发送HTTP请求和接收HTTP响应的各种应用场景,尤其是需要对各种Web服务API进行测试或抓包分析时非常实用。 总之,Python Requests是一个很好的HTTP,使用它能够方便地实现各种HTTP请求和响应操作,它也是Python标准中最完善的HTTP之一,因此被广泛使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值