Xpath数据提取
XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的 语言,可用来在 HTML\XML 文档中对 元素和属性进行遍历。
xpath基本介绍和使用
-
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
-
使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight"
xpath中常用的获取节点的表达式
- /表示就是 标签和标签之间的过渡
- //表示就是跨标签去定位标签,//a表示将当前页面中所有的a标签选中
- .表示当前路径
- @属性名: 获取到标签中属性的值
- text():获取标签中的文本内容**
栗子:
豆瓣电影top250的页面来练习:https://movie.douban.com/top250
1 选择所有的h1下的文本
//h1/text()