20220627 xpath语法

20220627 xpath语法

#1. 什么是Xpath(xml path 语言) - 专门用来解析xml数据
“”"
不同的编程语言的程序如果想要进行数据交流,数据传输之前必须转换成通用的数据格式(常用的有两种:json、xml)

Xpath解析数据的原理:通过提供你需要的标签在整个网页(xml)中的路径,来找到对应的标签,进一步获取标签内容或者标签属性。

python基于xpath做数据解析的工具:lxml第三方库
“”"

#2. xml数据 - 一种通用的数据格式
“”"
xml数据是以标签(元素)为单位,通过标签内容或者标签属性来提供数据。

xml语法:<标签名 属性名1=属性值1 属性名2=属性值2 …>标签内容</标签名>

案例:用json和xml来保存一个订单数据
json版本:
{
“id”: “oder028398923”,
“create_time”: “2022-6-26 22:34:56”,
“pay_time”: “2022-6-26 22:36:02”,
“goods_list”:[
{“goods_id”: “9234233”, “price”: 123.00, “count”: 2, “name”: “XXX防晒霜”},
{“goods_id”: “7281911”, “price”: 32.00, “count”: 1, “name”: “拖鞋”}
]
}

2022-6-26 22:34:56 2022-6-26 22:36:02 123.00 2 XXX防晒霜
    <goods goods_id="7281911">
        <price>32.00</price>
        <count>1</count>
        <name>拖鞋</name>
    </goods>
</goods_list>
""" #5.xpath常用术语 """ 树: 树结构(一个网页源代码,一个xml数据本质就是一个树结构) 节点: 本质就是标签 根节点: 最外层的哪个标签 节点内容: 双标签标签内容 节点属性: 标签属性 """

#4. xpath语法
from lxml import etree

#1)基于html数据或xml数据创建html或者xml对应的树并且获取根节点
#etree.HTML(网页源代码)、etree.XML(xml数据)
f = open(‘files/超市.xml’, encoding=‘utf-8’)
root = etree.XML(f.read())
f.close()

#2)基于节点通过路径获取标签
#节点对象.xpath(路径) - 根据路径获取对应的标签,返回值是一个列表,列表中的元素是对应的标签对象
“”"
路径写法:
1.绝对路径: /路径 (路径必须从根节点开始往后写)
2.相对路径:./路径 (.表示当前节点; 谁去点的xpath,当前节点就是谁)
…/路径 (…表示当前节点的上层节点)
注意:如果路径是以 ‘./’ 开始的,‘./’ 可以省略
3.任意路径://路径

注意:绝对路径和任意路径,在写路径和获取标签的时候跟xpath前面是哪个标签没有任何关系
“”"
#====绝对路径=
result = root.xpath(‘/supermarket/name’)
print(result)

result = root.xpath(‘/supermarket/staffs/staff’)
print(result)

#练习:通过写绝对路径,获取所有商品的商品名对应的标签
result = root.xpath(‘/supermarket/all_goods/goods/name’)
print(result)

#相对路径==
all_goods = root.xpath(‘./all_goods’)[0]

#result = all_goods.xpath(‘/supermarket/all_goods/goods/name’)
#print(result)
result = all_goods.xpath(‘./goods/name’)
print(result)

#任意路径==
result = root.xpath(‘//name’)
print(result)

result = all_goods.xpath(‘//name’)
print(result)

python
from lxml import etree

root = etree.XML(open(‘files/超市.xml’, encoding=‘utf-8’).read())

#1. 获取标签内容和标签属性
#1)获取标签内容:获取标签的路径/text()
result = root.xpath(‘//goods/name/text()’)
print(result) #[‘泡面’, ‘火腿肠’, ‘矿泉水’, ‘巧克力’]

#2)获取标签属性值:获取标签的路径/@属性名
result = root.xpath(‘//staff/@position’)
print(result)

#2.谓语(条件)
#谓语的写法:[谓语]

#1)位置相关谓语
“”"
[N] - 第N个标签(N是任意正整数)
[last()] - 获取最后一个标签
[last()-1] - 获取倒数第2个标签。这儿的1可以是其他任意的整数
[position()>N]、 [position()>=N]、[position()<N]、[position()<=N]
“”"
result = root.xpath(‘//goods[2]/name/text()’)
print(result) #[‘火腿肠’]

result = root.xpath(‘//goods[last()]/name/text()’)
print(result) #[‘巧克力’]

result = root.xpath(‘//goods[last()-1]/name/text()’)
print(result) #[‘矿泉水’]

result = root.xpath(‘//goods[position()<=3]/name/text()’)
print(result) #[‘泡面’, ‘火腿肠’, ‘矿泉水’]

#2)属性相关谓语
“”"
[@属性名=值] - 获取指定属性为指定值的标签
[@属性名] - 获取拥有指定属性的标签
“”"
result = root.xpath(‘//goods[@class=“c3”]/name/text()’)
print(result)

result = root.xpath(‘//goods[@id=“d1”]/name/text()’)
print(result)

result = root.xpath(‘//goods[@class]/name/text()’)
print(result)

#*3)子标签内容相关谓语
“”"
[子标签名>值]、[子标签名>=值]、[子标签名<值]、[子标签名<=值]、[子标签名=值]
“”"
result = root.xpath(‘//goods[pirce=1.5]/name/text()’)
print(result)

#3. 分支 - |
#路径1|路径2 - 先通过路径1获取标签,通过路径2获取(获取的是多个路径中所有有效路径的结果)
result = root.xpath(‘//goods/name1/text()|//goods/name2/text()’)
print(result) #[]

result = root.xpath(‘//goods/name2/text()|//goods/name/text()’)
print(result) #[‘泡面’, ‘火腿肠’, ‘矿泉水’, ‘巧克力’]

result = root.xpath(‘//goods/name/text()|//staffs/staff/text()’)

#4.通配符 - *
#xpath中可以用*来代表任意标签或者任意属性

result = root.xpath(‘//goods/name/text()’)
print(result)

result = root.xpath(‘//goods/*/text()’)
print(result) #[‘泡面’, ‘3.5’, ‘120’, ‘火腿肠’, ‘1.5’, ‘305’, ‘矿泉水’, ‘1.5’, ‘1200’, ‘巧克力’, ‘11.5’, ‘50’]

result = root.xpath(‘//*[@class=“c2”]’)
print(result)

#所有第一个员工的所有属性值
result = root.xpath(‘//staff[1]/@*’)
print(result)

#获取属性值为c2的所有标签
result = root.xpath(‘//[@=“c2”]’)
print(result)

#获取id值为’d1’的标签
result = root.xpath(‘//*[@id=“d1”]’)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Denis_1412

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值