提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达
文章目录
前言
简述
XPath(XML Path Language)是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。
话不多说,开始学习
XPath 语言
学习目的
将HTML转换成XML文档之后,用XPath查找HTML节点或元素
比如用“/”来作为上下层级间的分隔,第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而是指文档本身)。
比如对于一个HTML文件来说,最外层的节点应该是"/html"。
XPath开发工具
- 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
- chrome插件 XPath Helper
- firefox插件 XPath Checker
XPath语法参考文档:https://www.w3school.com.cn/xpath/index.asp
XPath语法
XPath 是一门在 XML 文档中查找信息的语言。
XPath 可用来在 XML 文档中对元素和属性进行遍历。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang&