CSDN热榜、华为云博客都可用来练习Python scrapy 爬虫

梦想橡皮擦

于 2021-10-31 17:21:04 发布

阅读量2w

点赞数 10

分类专栏： Python爬虫120 文章标签： python 爬虫 python爬虫

梦想橡皮擦-独家版权，禁止转载

本文链接：https://blog.csdn.net/hihell/article/details/121066927

版权

Python爬虫120 专栏收录该内容

140 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了如何使用scrapy的选择器进行数据提取，重点讲解了selectors的基本用法，包括XPath和CSS选择器。通过实例展示了在CSDN热榜和华为云博客上应用选择器的方法，并提到了相关注意事项，如使用方法、数据处理和选择器的高级技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇博客补充一下 scrapy 选择器相关知识。

scrapy 选择器

scrapy 框架自带数据提取机制，相关内容被称为选择器 seletors，其通过 XPath，CSS 表达式可以选择 HTML 中的指定部分。

scrapy 选择器是基于 parsel 库实现的，该库也是一个解析库，底层使用的是 lxml，所以它的用法和效率都接近 lxml，在《爬虫 120 例》专栏后续部分，会针对性的补充一下该库相关知识点。

selectors 基本使用

本次学习过程中，使用 CSDN 的专栏排行榜进行测试。

选择器对象，可以直接通过 response 对象调用

import scrapy


class CSpider

了解本专栏

梦想橡皮擦

博客等级

码龄16年

Python领域优质创作者

博客专家认证

3548
原创

3万+
点赞

7万+
收藏

32万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 社区共读《Python编程从入门到实践》第10，11，12天阅读建议

下一篇：: 纯纯的爬虫知识，python scrapy 下载中间件知多少

最新评论

华为OD机试（B+C+D卷）、机考必刷 200 分的题目整理如下，冲满分评级必备
2501_92233710: 华为核心部门操作系统核心岗直招高级软件开发和OD，15k-60k，招聘回暖，快速发起简历直达部门leader 岗位多，待遇不设上限上海/杭州 Java/C/C++/python 薪资在行业比较有竞争力，有意可直接简历发我，私聊快速内推主管
华为od 2023 | 什么是华为od，od 薪资待遇，od机试题清单
2501_92233710: 华为核心部门操作系统核心岗直招高级软件开发和OD，15k-60k，招聘回暖，快速发起简历直达部门leader 岗位多，待遇不设上限上海/杭州 Java/C/C++ 薪资在行业比较有竞争力，有意可直接简历发我，私聊快速内推主管
加密分享，那些精彩绝绝伦的Python爬虫开源项目，先集7个吧
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
基于python的二手房数据分析，思路+代码范例
2401_90010736: sqft是哪个变量啊
华为OD 快问快答，你想了解的我都知道
阿J~: 大佬，一给我嘞giao

大家在看

最新文章

目录

展开全部

收起

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦想橡皮擦 如有帮助，来瓶可乐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。