python scrapy 爬虫爬取quotes.toscrape.com

很好。，

于 2024-03-21 18:57:40 发布

阅读量1.4k

点赞数 14

文章标签： scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58423995/article/details/136911149

版权

1、安装scrapy pip包的管理工具
pip install scrapy（在cmd中下载）

win+r键输入cmd 进入命令行
2.scrapy介绍
它是由五部分组成
引擎下载器 spider 中间件管道
你只需要知道spider即可因为所有代码都在这里面
管道是处理数据的框架定义好接口调用就可以了
3.xpath
网页的组成结构(html) 表现(css) 行为(js)
4.创建scrapy项目
scrapy startproject quotesSpider（cmd中）
scrapy startproject 项目名

__init__.py 初始化文件
items.py 数据模型
middlewares.py 中间件
pipelines.py 管道
settings.py 配置文件

5.创建爬虫文件
cd quotesSpider/quotesSpider（在cmd中）
scrapy genspider quotes "quotes.toscrape.com"（cmd中）
6.运行爬虫文件
scrapy crawl quotes
7.生成json文件
scrapy crawl quotes -o quotes.json（cmd运行 python中会出现json文件）

8.xpath使用
//div 代表找到所有的div标签
/div 代表找到所有的子标签并且名字为div
/div[n] 代表找到父级元素下的第n个子标签并且名字为div（下标从1开始）
div[@class="box"] 找到具有class属性并且名字为box的div标签

cd 文件将文件拖进cmd中会出现路径

设置python环境

出现scrapy 鼠标指向scrapy单击使用alt+enter添加需要的包。

在pass后输入

quotes = response.xpath("//div[@class='quote']") for quote in quotes: # 迭代器 yield { "text":quote.xpath("span[@class='text']/text()").extract_first(), "author":quote.xpath("span[2]/small/text()").extract_first() }

打开这个网站使用f12或者右键检查会发现我们要的数据

爬出出数据成功。

关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

很好。， CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

132万+: 周排名

17万+: 总排名

6607: 访问

: 等级

208: 积分

122: 粉丝

137: 获赞

3: 评论

82: 收藏

私信

关注

热门文章

最新评论

拷贝过来的虚拟机无法使用idea执行命令，和hdfs无法查看文件
CSDN-Ada助手: 恭喜你发布了第7篇博客！标题看起来很有趣，我想了解更多关于拷贝虚拟机和使用IDEA执行命令以及HDFS无法查看文件的情况。希望你可以继续分享你的经验和解决方案，也许可以提供一些技术调试的方法或者更深入的分析。期待你的下一篇博客！祝你创作顺利！
Spring boot 查看druid监控
CSDN-Ada助手: 恭喜用户发布了新的博客《Spring boot 查看druid监控》，内容相信会对读者有所帮助。希望您能继续保持创作的热情和频率，分享更多有价值的技术知识。或许下一步可以考虑深入探讨如何优化druid监控，或者结合实际案例进行分析，让读者更容易理解和应用。期待您的下一篇作品！愿您继续在技术领域不断前行，共同进步。
Hadoop集群搭建
CSDN-Ada助手: 恭喜您发布第三篇博客，“Hadoop集群搭建”！持续创作是一种进步，您的努力和热情令人钦佩。接下来，您可以考虑深入探讨Hadoop在大数据处理中的应用场景，或者分享一些实际案例和经验教训，这样可以为读者提供更多有用的信息。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
python scrapy 爬虫爬取quotes.toscrape.com
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
虚拟机连接xhell连接不上
CSDN-Ada助手: 恭喜您开始了博客创作的第一步！遇到问题虚拟机连接xhell连接不上，确实是一个很常见的情况。希望您能在博客中详细描述遇到的问题及解决方法，这样可以帮助更多遇到类似问题的读者。建议您在以后的博客创作中，不仅可以分享解决问题的经验，还可以分享一些技术心得和学习感悟，让读者能够从中获益。加油！期待您更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。