一、原理
XPath是在xml中搜索内容的一门语言,html是xml语言的一种子集。
xml的例子:
<book>
<id>1</id>
<name>追风筝的人</name>
<author>
<nick>卡勒德·胡赛尼</nick>
<nike>Khaled Hosseini</nick>
</author>
</book>
结点间存在父子关系,book是id,name,author的父节点,author是nick的父节点。
XPath解析按照文档的父子关系进行解析,可以通过节点间关系进行查找,也可以通过结点名称进行查找。
二、XPath的使用
安装模块:lxml
命令:pip install lxml -i +镜像地址
代码:
from lxml import etree
xml = """<book>
<id>1</id>
<name>追风筝的人</name>
<author>
<nick>卡勒德·胡赛尼</nick>
<nick>Khaled Hosseini</nick>
<div>
<nick>test text</nick>
</div>
</author>
</book>
"""
tree = et