学习scrapy的时候需要用到Xpath的知识,故整理下知识点。
什么是 XPath?
- XPath 使用路径表达式在 XML 文档中进行导航
- XPath 包含一个标准函数库
- XPath 是 XSLT 中的主要元素
- XPath 是一个 W3C 标准
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。
节点(Node)
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
节点关系
父节点(Parent),子节点(Childre),同胞(sibling),先辈(Ancestor), 后代(Descendant)
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素
选取多个路径
XPath 轴
轴可定义相对于当前节点的节点集
实例:
Xpath表达式中可出现|、+、-、*,/、<>等运算符。
学习链接:Xpath教程