深入理解Scrapy中XPath的`following-sibling`选择器

一勺菠萝丶

于 2024-01-19 13:21:02 发布

阅读量933

点赞数 8

文章标签： scrapy html 前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39973810/article/details/135695452

版权

什么是XPath？

在深入following-sibling选择器之前，先简单了解一下XPath。XPath是一种在XML文档中查找信息的语言。它同样适用于HTML文档，因为HTML是XML的一种形式。XPath使用路径表达式在XML文档中进行导航。在网络爬虫框架Scrapy中，XPath是一种常用的网页元素定位方法。

`following-sibling`选择器简介

在XPath中，following-sibling选择器用于选择当前节点之后的所有同级节点。这个选择器常用于那些具有相似结构但不容易直接定位的元素，尤其是在处理列表、表格等结构时特别有用。

使用方法

基本语法

xpath('//标签名[条件]/following-sibling::标签名')

这里，following-sibling::后面跟着的是你想要选择的同级元素的标签名。

实例解析

假设我们有以下HTML结构：

<div>
    <h2>标题1</h2>
    <p>段落1</p>
    <h2>标题2</h2>
    <p>段落2</p>
</div>

如果我们想要选择“标题1”后面的段落，我们可以使用以下XPath表达式：

xpath('//h2[text()="标题1"]/following-sibling::p[1]')

这将选择第一个<h2>标签之后的第一个<p>标签。

注意事项

选择范围：following-sibling选择器会选取所有紧随当前节点的同级节点，如果需要选择特定的一个，记得加上索引。
使用场景：这个选择器在处理具有复杂关系或不规则结构的HTML时特别有用。
性能考虑：过度使用或不当使用following-sibling可能会影响爬虫的性能，尤其是在处理大型文档时。

结语

掌握following-sibling选择器可以大大提高在Scrapy中处理HTML文档的效率和准确性。通过本文的介绍和示例，希望读者能够更好地理解和运用这一强大的工具。

一勺菠萝丶

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
深入理解Scrapy中XPath的`following-sibling`选择器

在深入选择器之前，先简单了解一下XPath。XPath是一种在XML文档中查找信息的语言。它同样适用于HTML文档，因为HTML是XML的一种形式。XPath使用路径表达式在XML文档中进行导航。在网络爬虫框架Scrapy中，XPath是一种常用的网页元素定位方法。在XPath中，选择器用于选择当前节点之后的所有同级节点。这个选择器常用于那些具有相似结构但不容易直接定位的元素，尤其是在处理列表、表格等结构时特别有用。掌握选择器可以大大提高在Scrapy中处理HTML文档的效率和准确性。
复制链接

扫一扫

一勺菠萝丶 CSDN认证博客专家 CSDN认证企业博客

码龄7年

北京字节跳动科技有限公司

390: 原创

3944: 周排名

1813: 总排名

168万+: 访问

: 等级

1万+: 积分

1328: 粉丝

1712: 获赞

325: 评论

2403: 收藏

私信

关注

热门文章

分类专栏

Java 96篇
Spring 7篇
SpringBoot 33篇
SpringMVC 3篇
Docker 1篇
Jenkins 5篇
MyBatis 12篇
Shiro 5篇
OAuth2 2篇
OSS 3篇
Java设计模式
FastDFS 2篇
Git 6篇
Nginx 9篇
ELK 8篇
学成在线 9篇
Python 14篇
Python爬虫 9篇
数据库 3篇
Mongo 4篇
MySQL 26篇
系统 3篇
Windows 8篇
Linux 20篇
Ubuntu 4篇
Mac 6篇
网络 2篇
PHP 31篇
前端 13篇
其他 8篇

最新评论

ChromeDriver新手教程：Chrome 114到127版本的驱动下载
qq_44972272: 126.0.6478.127的可以用126.0.6478.126的吗？
Java中的基本数据类型转换：Long与Integer
穷苦书生_万事愁: 博主的这篇关于Java中基本数据类型转换的文章真的让我受益匪浅。在阅读过程中，我不仅解决了之前对于Long与Integer、long与Integer之间转换的困惑，还对这个主题有了更深入的理解。博主的细节描写非常到位，让我感受到了博主的专业功底。期待博主未来能够持续分享更多类似的好文，希望能够在博主的指导下共同进步。再次感谢博主的分享和支持！
解决Java调用Python代码返回中文乱码问题
一只机器喵: 感谢大佬，解决问题啦
TCP 协议详解：三次握手与四次挥手
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
全文搜索引擎对比：RedisSearch 和 Elasticsearch 的优劣分析
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。