Xpath介绍

简介:

在 XML 文档中查找信息的语言,【可以对XML 文档中对元素和属性进行遍历】

从XML文档中抽取信息

语法

最常用的路径表达式

/     从跟节点选择
//    从当前节点开始选择,而不考虑位置
.     选取当前节点
..    选取当前节点的父节点
@     选取属性

常用路径表达式以及表达式的结果
在这里插入图片描述

谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中

在这里插入图片描述

== 选取未知节点==

*     提取所有节点
@* 提取所有带属性的节点

选取若干路径,通过在路径表达式中使用“|”运算符,您可以选取若干个路径
在这里插入图片描述

XPath的运算符
在这里插入图片描述

lxml库

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath语法,来快速的定位特定元素以及节点信息。

== lxml数据转换 ==
原数据

str = '''<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

数据类型转换

#数据类型转换成HTML
tree = etree.HTML(varsa)         #返回<Element html at 0x23fa4a8fa88>  

#打印tree对象中的数据
mydata = etree.tostring(tree,encoding='utf-8')                    #  (二进制数据)
mydata = etree.tostring(tree,encoding='utf-8').decode('utf-8')    #  (str数据)
print(mydata)
print(type(mydata))

原数据转换成html后新增了html和body标签,如下

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>

简单数据提取过程
1.拿到数据
2.数据类型转换成html
3.用xpath语法定位元素和属性

语法整合

 etree.HTML(变量)  #数据类型转换成html
 etree.parse()           #读取外部文件 ,返回的数据是ElementTree
 etree.tostring        #打印出Element对象的内容
 tree.xpath()    #返回列表数据
 tree.xpath('./title/text()') #找到title标签的文本内容
 tree.xpath('//ol/li[contains(@class,"h")]/text()') # 获取数据,根据属性值中含有某个字符
 tree.xpath('//ol/li[last()-2]/text()') #获取数据,通过定位位置
 tree.xpath('//div[@id="pp"]/div[1]/a/@ href') #获取属性值数据
 tree.xpath('//li[@id="tata"][@class="hehe"]/text()')   #多重条件查询
 #管道符号作用:都查询,查不到不报错,只给出查到的
 tree.xpath('//li[@id="tata"][@class="hehe"]/text() | //li[@class="tanshui"]/text()')
 #xpath的+ - * /
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值