xpath提取法
什么是xpath
XPath 是一门在 XML 文档和html文档中查找信息的语言。
功能是提取内容
xpath可以提取的东西有
- 标签
- 内容
- 属性的值
安装方法
最终可以点击后看见
关注xpath的界面
关于节点-标签
xpath路径表达式
/ 具有查找子节点的功能
父子关系,可以通过/
》
默认开头直接写 /
代表从整文档开始
》
/html/;head
》拿到body标签下的h1标签
// 获取子孙节点
提取页面中所有的h1节点
。。获取上一个节点
获取标签的属性
通过@符号可以获取属性
用法
获取标签所对应的属性值
标签/@属性名称
获取标签所包裹的文本
标签/text()
谓语
选取某个标签,要求某属性等于某值的
标签[@属性名=属性值str]
选择标签,获得了多个要取第一个
标签[序号]
标签选择,获取最后一个
标签[last()]
position() 位置函数
获取位置大于4的标签
选择具有某个属性的标签
标签[@属性名称]
注意区别
获取到了内容
获取到了标签