xpath中双斜杆的用处

最新推荐文章于 2024-06-05 15:40:06 发布

RealMoYe

最新推荐文章于 2024-06-05 15:40:06 发布

阅读量1.9k

点赞数

分类专栏：技术：网络爬虫文章标签： xpath 双斜杠

本文链接：https://blog.csdn.net/baidu_26646129/article/details/100147566

版权

技术：网络爬虫专栏收录该内容

9 篇文章 3 订阅

订阅专栏

// 从匹配选择的当前节点选择文档中的节点，不考虑它们的位置

上面的说明有点绕，我们拆开来理解：匹配选择的当前节点就是xpath的双斜杠之前的规则所匹配得到的节点，此时以这个节点作为根节点来找其他节点；不考虑它们的位置指的是，即使当前节点下的内容存在嵌套关系，也直接忽略，由前到后进行匹配。

看一个例子：

# 我们想要从下列HTML文档中匹配出气温的范围，如何实现？
# <div class='temp'>
# 	<span>20</span>
#	~
#	<span>22</span>
# </div>

# 错误的写法一
# 该写法将得到一个list而非文本串
temperature = resp.xpath('//div[@class="temp"]/text()').extract()

# 错误的写法二
# 该写法将得到波浪号 '~'
temperature = resp.xpath('//div[@class="temp"]/text()').extract()[0]

# 正确的写法
# 该写法将得到 '20~22'
temperature = ''
for temp in resp.xpath('//div[@class="temp"]//text()').extract():
	temperature += temp

# 上面的写法先使用//定位到当前的div节点，然后按照从前到后的顺序依次匹配文本，组成一个list
# 使用循环遍历list，组装完整的字符串

RealMoYe

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
xpath中双斜杆的用处

// 从匹配选择的当前节点选择文档中的节点，不考虑它们的位置上面的说明有点绕，我们拆开来理解：匹配选择的当前节点就是xpath的双斜杠之前的规则所匹配得到的节点，此时以这个节点作为根节点来找其他节点；不考虑它们的位置指的是，即使当前节点下的内容存在嵌套关系，也直接忽略，由前到后进行匹配。看一个例子：# 我们想要从下列HTML文档中匹配出气温的范围，如何实现？# <div cla...
复制链接

扫一扫

专栏目录