xpath
什么是xpath
XML路径语言,拥有在数据结构树中查找节点的能力
被开发者当做小型查询语言来使用
Xpath通过元素和属性进行导航
为什么学习xpath
1、不仅支持XML,也支持HTML(可以在HTML中查找我们需要的内容)
2、比正则表达式更简单,强大
3、爬虫框架,像scrapy也支持xpath
节点
父辈,子辈,同胞,先辈,后台
路径表达式
xpath使用路径表达式在XML文档中选取节点
路径表达式:
/
从根节点选取
//
从匹配的当前节点选择文档中的节点,而不考虑它们的位置
@
选取属性
谓语
对节点进行进一步限制(使用中括号)
/bookstore/book[1]
选取属于bookstore子元素的第一个book元素
/bookstore/book[last()]
选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1]
选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()<3]
选取最前面2个属于bookstore的book子元素
//title[@lang]
选取拥有lang属性的title元素
//title[@lang='eng']
选取拥有lang属性=eng的title元素
通配符
* 匹配任何元素节点
@* 匹配任何属性节点
选取若干路径
使用|隔开
//book/title | //book/price
选取book下的title元素和book下的price元素
xpath在python中的使用
pip install lxml 安装lxml库
后续补充