xpath And Requests

最新推荐文章于 2024-05-14 22:18:18 发布

孑然啊一身

最新推荐文章于 2024-05-14 22:18:18 发布

阅读量197

点赞数

本文链接：https://blog.csdn.net/qq_43161739/article/details/100667480

版权

XPath即为XML路径语言（XML Path Language），它是一种用来在XML文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行搜索，同样也适用于HTML。XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式，另外它还提供了超过 100 个内建函数用于字符串、数值、时间的匹配以及节点、序列的处理等等，几乎所有我们想要定位的节点都可以用XPath来选择。

Xpath的路径

Xpath的路径分为：绝对路径和相对路径，具体区别看下表

在这里插入图片描述

Xpath路径应用举例：

在这里插入图片描述

选择分支：

对于存在多个元素时想唯一定位，可以使用[]中括号来选择分支，下标从1开始（切记不是像数组那样从0开始哦）
在这里插入图片描述

选择属性：

有时候我们还可以利用标签内的属性来加以区分定位，在<>开始标记内除标签外，其他都可以看做是属性。
在这里插入图片描述

常用函数：

除了分支下标和属性外，Xpath还提供了很多函数来辅助定位，下列列出一些常用的：
a.字符串查找函数： contains()
语法：contains(string1,string2)，表示如果 string1 包含 string2，则返回 true，否则返回 false。
b.获取元素的文本内容： text()
c.从起始位置匹配字符串：starts-with ()
在这里插入图片描述

Xpath轴：

上面这些方法都不能定位时，这时候就得考虑依据元素的父辈、兄弟或者子辈节点来定位了，这就需要用到Xpath轴，利用轴可定位某个相对于当前节点的节点集。
语法：轴名称::标签名
Alt

例如使用浏览器默认定位得到的xpath是

//*[@id='validate']/dl/dd[6]/span[2]/p/span

现在使用Xpath的following轴就可以轻松定位到：

//*[@id='pricetip']/following::span[1]

Request

一开始要导入 Requests 模块：

import requests

然后，尝试获取某个网页。本例子中，我们来获取 Github 的公共时间线：

r = requests.get('https://api.github.com/events')

现在，我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。

Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如，你可以这样发送一个 HTTP POST 请求：

r = requests.post('http://httpbin.org/post', data = {'key':'value'})

那么其他 HTTP 请求类型：PUT，DELETE，HEAD 以及 OPTIONS 又是如何的呢？都是一样的简单：

r = requests.put('http://httpbin.org/put', data = {'key':'value'})
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')
r = requests.options('http://httpbin.org/get')

你也许经常想为 URL 的查询字符串(query string)传递某种数据。如果你是手工构建 URL，那么数据会以键/值对的形式置于 URL 中，跟在一个问号的后面。例如， httpbin.org/get?key=val。 Requests 允许你使用 params 关键字参数，以一个字符串字典来提供这些参数。举例来说，如果你想传递 key1=value1 和 key2=value2 到 httpbin.org/get ，那么你可以使用如下代码：

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)

通过打印输出该 URL，你能看到 URL 已被正确编码：

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1

注意字典里值为 None 的键都不会被添加到 URL 的查询字符串里。

你还可以将一个列表作为值传入：

>>> payload = {'key1': 'value1', 'key2': ['value2', 'value3']}

>>> r = requests.get('http://httpbin.org/get', params=payload)
>>> print(r.url)
http://httpbin.org/get?key1=value1&key2=value2&key2=value3

响应内容

我们能读取服务器响应的内容。再次以 GitHub 时间线为例：

>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r.text
u'[{"repository":{"open_issues":0,"url":"https://github.com/...

二进制响应内容

你也能以字节的方式访问请求响应体，对于非文本请求：

>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests 会自动为你解码 gzip 和 deflate 传输编码的响应数据。

例如，以请求返回的二进制数据创建一张图片，你可以使用如下代码

>>> from PIL import Image
>>> from io import BytesIO

>>> i = Image.open(BytesIO(r.content))

JSON 响应内容

Requests 中也有一个内置的 JSON 解码器，助你处理 JSON 数据：

>>> import requests

>>> r = requests.get('https://api.github.com/events')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

如果 JSON 解码失败， r.json() 就会抛出一个异常。例如，响应内容是 401 (Unauthorized)，尝试访问 r.json() 将会抛出 ValueError: No JSON object could be decoded 异常。

需要注意的是，成功调用 r.json() 并不意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象（比如 HTTP 500 的错误细节）。这种 JSON 会被解码返回。要检查请求是否成功，请使用 r.raise_for_status() 或者检查 r.status_code 是否和你的期望相同。

超时

你可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应。基本上所有的生产代码都应该使用这一参数。如果不使用，你的程序可能会永远失去响应：

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

timeout 仅对连接过程有效，与响应体的下载无关。 timeout 并不是整
个下载响应的时间限制，而是如果服务器在 timeout 秒内没有应答，
将会引发一个异常（更精确地说，是在 timeout 秒内没有从基础套
接字上接收到任何字节的数据时）If no timeout is specified explicitly,
 requests do not time out.

错误与异常

遇到网络问题（如：DNS 查询失败、拒绝连接等）时，Requests 会抛出一个 ConnectionError 异常。

如果 HTTP 请求返回了不成功的状态码， Response.raise_for_status() 会抛出一个 HTTPError 异常。

若请求超时，则抛出一个 Timeout 异常。

若请求超过了设定的最大重定向次数，则会抛出一个 TooManyRedirects 异常。

所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException 。

孑然啊一身

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xpath And Requests

XPath即为XML路径语言（XML Path Language），它是一种用来在XML文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行搜索，同样也适用于HTML。XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式，另外它还提供了超过 100 个内建函数用于字符串、数值、时间的匹配以及节点、序列的处理等等，几乎所有我们想要定位的节点都可以用XPath来选择。Xp...
复制链接

扫一扫