xpath解析
- 路径写法
- / 依次查找
- // 间接查找
- ./ 从当前元素下查找
- .// 从当前元素的间接子节点查找
- 位置条件
- //li[1] 整个文档中的第一个
- 标签
- //li[last()] 最后一个
- //li[position() < 3] 前2个
- //li[position() - 2] 倒数第2个
- 属性条件
- //li[@id=“xxxx”]
- //li[@class=""] @class 属性名
- //li[@class="" and @name=""] 多个属性的且的关系
- 同时提取两个元素
- //title/text() | //img/@src
- 模糊条件
- //div[contains(@class, “page”)] 查找class属性包含page的所有div标签
- //div[starts-with(@class, “box”)] 第一个class的属性值为box的div标签
- //div[ends-with(@class, “clearfix”)]最一个class的属性值为clearfix的div标签
1、数据提取
提取文本 //title/text()
提取属性 //img/@href
2、位置条件
获取网页中的数据类型与字符集, 获取第一个标签 //meta[1]//@content
获取最后一个标签 //meta[last()]//@content
获取倒数第二个标签 //meta[position()-2]//@content
获取前三个标签 //meta[position()❤️]//@content
3、属性条件
查找 class为circle-img的标签 //img[@class=“circle-img”]