爬虫-Day6-xpath解析

最新推荐文章于 2024-07-18 12:57:54 发布

flank555

最新推荐文章于 2024-07-18 12:57:54 发布

阅读量262

点赞数

文章标签：爬虫 python 前端

本文链接：https://blog.csdn.net/flank555/article/details/125507045

版权

爬虫-Day6-xpath解析

1.什么是Xpath(xml path 语言) - 专门用来解析xml数据
- 不同的编程语言的程序如果想要进行数据交流，数据传输之前必须转换成通用的数据格式(常用的有两种：json、xml)
- Xpath解析数据的原理：通过提供你需要的标签在整个网页(xml)中的路径，来找到对应的标签，进一步获取标签内容或者标签属性。
- python基于xpath做数据解析的工具：lxml第三方库
2.xml数据 - 一种通用的数据格式

xml数据是以标签(元素)为单位，通过标签内容或者标签属性来提供数据。

xml语法：<标签名属性名1=属性值1 属性名2=属性值2 …>标签内容</标签名>
3.xpath常用术语

树: 树结构(一个网页源代码，一个xml数据本质就是一个树结构)
节点: 本质就是标签
根节点: 最外层的哪个标签
节点内容: 双标签标签内容
节点属性：标签属性
4.xpath语法
- 1.基于html数据或xml数据创建html或者xml对应的树并且获取根节点
```
# etree.HTML(网页源代码)、etree.XML(xml数据)
f = open('files/超市.xml', encoding='utf-8')
root = etree.XML(f.read())
f.close()

response = request.get(url)
root = etree.HTML(response.text)
```
- 2.基于节点通过路径获取标签
  
  路径写法：
  1.绝对路径: /路径（路径必须从根节点开始往后写）
  2.相对路径：./路径 (.表示当前节点; 谁去点的xpath，当前节点就是谁)
  …/路径 (…表示当前节点的上层节点)
  注意：如果路径是以 ‘./’ 开始的，‘./’ 可以省略
  3.任意路径：//路径
  
  注意：绝对路径和任意路径，在写路径和获取标签的时候跟xpath前面是哪个标签没有任何关系
```
    ```python
      # 练习：获取所有商品的商品名对应的标签
      绝对路径
      result = root.xpath('/supermarket/all_goods/goods/name')
      相对路径
      all_goods = root.xpath('./all_goods')[0]
      result = all_goods.xpath('./goods/name')
      任意路径
      result = all_goods.xpath('//name')
    ```
```
- 4.获取标签内容和标签属性
  - 获取标签内容：获取标签的路径/text()
    
    result = root.xpath(‘//goods/name/text()’)
  - 获取标签属性值：获取标签的路径/@属性名
    
    result = root.xpath(‘//staff/@position’)
- 5.谓语（条件）
  - 1.位置相关谓语
    
    [N] - 第N个标签(N是任意正整数)
    [last()] - 获取最后一个标签
    [last()-1] - 获取倒数第2个标签。这儿的1可以是其他任意的整数
    [position()>N]、 [position()>=N]、[position()<N]、[position()<=N]
```
result = root.xpath('//goods[1]/name/text()')  第一
result = root.xpath('//goods[last()]/name/text()')  倒数第一
result = root.xpath('//goods[last()-1]/name/text()')  倒数第二
result = root.xpath('//goods[position()<=3]/name/text()') 第三及以后
```
  - 2.属性相关谓语
    
    [@属性名=值] - 获取指定属性为指定值的标签
    [@属性名] - 获取拥有指定属性的标签
```
result = root.xpath('//goods[@class="c3"]/name/text()')
result = root.xpath('//goods[@class]/name/text()')
```
  - 3.子标签内容相关谓语
    
    [子标签名>值]、[子标签名>=值]、[子标签名<值]、[子标签名<=值]、[子标签名=值]
```
result = root.xpath('//goods[pirce=1.5]/name/text()')
```
- 6.分支
  
  路径1|路径2 - 获取的是多个路径中所有有效路径的结果
```
result = root.xpath('//goods/name/text()|//staffs/staff/text()')
```
- 7.通配符
  
  xpath中可以用*来代表任意标签或者任意属性
```
获取good所有子项标签
result = root.xpath('//goods/*/text()')
获取所有@class="c2"的标签
result = root.xpath('//*[@class="c2"]')
获取第一个staff下所有的属性
result = root.xpath('//staff[1]/@*')
获取所为"c2"的标签
result = root.xpath('//*[@*="c2"]')
```