scrapy爬虫之基本抓取流程和scrapy项目文件

最新推荐文章于 2022-11-03 18:58:10 发布

VIP文章 py风之老凌

最新推荐文章于 2022-11-03 18:58:10 发布

阅读量271

点赞数

分类专栏： python之scrapy框架爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengzhilaoling/article/details/107222358

版权

基本流程图

在这里插入图片描述

scrapy项目中各个文件作用

我们通过一个爬取书籍名称和价格的爬虫来进行说明
爬取网址：http://books.toscrape.com 这是一个专门用于爬虫练习网站

在这里插入图片描述

在框中的文件是我们需要知道和关注的
item.py：定义scrapy的输出内容
middlewares.py：定义各种中间件，主要为了处理各种request和response
pipelines.py：定义管的，如何处理抓取的文件
setting.py：项目配置文件，所有的管道、中间件等其他参数必须在setting.py中激活才能生效
spiders：目录中用于存放所有的爬虫文件

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫之基本抓取流程和scrapy项目文件

基本流程图
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。