XPath基本使用
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文
档中对元素和属性进行遍历。
W3School 官方文档:http://www.w3school.com.cn/xpath/index.asp
选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。下面列出了最常用的路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置 |
. | 选取当前节点。 |
… | 选取当前节点的父节点。 |
@ | 选取属性。 |
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
路径表达式 | |
---|---|
bookstore | 选取 bookstore 元素的所有子节点 |
/bookstore | 选取根元素 bookstore。/代表元素的绝对路径。 |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置。 |
bookstore//book | 选择属于 booksore 元素的后代所有的 book 元素,而不管他们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的所有属性。 |
text() | 取标签当中的值 |
谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。在下面
的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
选取未知节点
选取若干路径
lxml模块
安装
pip install lxml
初步使用
1.解析Html字符串
XML 素材:http://www.cnblogs.com/zhangboblogs/p/10114698.html
结果:
**小结:**lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签
2.lxml文件读取
除了直接读取字符串,lxml 还支持从文件里读取内容。我们新建一个 hello.html 文件, 再利用 etree.parse()方法来读取文件
注意:从文件中读取数据,要求文件内容符合 xml 格式,如果标签缺失,则不能正常读取。
打印结果输入:
3.XPath 节点信息解析: