1、介绍
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。
lxml是python的一个解析库模块,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
python使用lxml模块可以通过xpath语法提取html标签元素。
使用lxml主要思路如下:
(1)先将 HTML文件转换成XML文档
(2)然后用XPath 查找 HTML 节点或元素
2、安装
pip install lxml
3、先学会xpath语法
我们将在下面的例子中使用这个 XML 文档。
(1)选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:表达式描述
nodename选取此节点的所有子节点。
/从根节点选取。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表达式结果
bookstore选取 bookstore 元素的所有子节点。
/bookstore选取根元素 bookstore。
注释:假如路径起始于正斜杠( / )ÿ