Scrapy xpath选择器

最新推荐文章于 2022-11-15 16:02:19 发布

naive老文

最新推荐文章于 2022-11-15 16:02:19 发布

阅读量181

点赞数

分类专栏： Scrapy Python

本文链接：https://blog.csdn.net/m0_37728974/article/details/93722373

版权

Python 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Scrapy

5 篇文章 0 订阅

订阅专栏

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

XPath 通配符可用来选取未知的 HTML元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

另外的知识点：

1）返回第一个li节点的所有祖先节点，包括html,body,div和ul
result = response.xpath('//li[1]/ancestor::*')
 
2）返回第一个li节点的<div>祖先节点
result = response.xpath('//li[1]/ancestor::div')
 
3）返回第一个li节点的所有属性值
result = response.xpath('//li[1]/attribute::*')
 
4）首先返回第一个li节点的所有子节点，然后加上限定条件，选组href属性为link1.html的a节点
result = response.xpath('//li[1]/child::a[@href="link1.html"]')
 
5）返回第一个li节点的所有子孙节点，然后加上只要span节点的条件
result = response.xpath('//li[1]/descendant::span')
 
6）following轴可获得当前节点之后的所有节点，虽然使用了*匹配，但是又加了索引选择，所以只获取第2个后续节点，也就是第2个<li>节点中的<a>节点
result = response.xpath('//li[1]/following::*[2]')
 
7）following-sibling可获取当前节点之后的所有同级节点，也就是后面所有的<li>节点
result = response.xpath('//li[1]/following-sibling::*')