scrapy框架下载安装及使用流程

最新推荐文章于 2024-06-22 16:33:22 发布

柠澈！

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量1.6k

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫软件框架

本文链接：https://blog.csdn.net/qq_57703172/article/details/116516716

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

scrapy框架下载安装及使用流程

定义：异步处理框架，可配置和可扩展程度非常高，python中使用最广泛的爬虫框架（足够简单，效率足够高，和jquery相似）-------》异步的意思就是，一个程序可以同时干很多事情

scrapy框架下载安装：

在cmd中输入pip install scrapy指令下载框架：对pip要求很高，如果有一个模块不兼容都下载不了

在cmd中输入pip list：检查是否安装成功

安装的时候如果出现问题:NoReturn，不能导入一个包或者模块，两种可能性：1.pip里面有一个模块或者包遗失了，2.pip版本不对

解决方式：

1.cmd中输入指令python -m pip install --upgrade pip==20.0.3
2.下载过后，不要直接pip install scrapy，而是退出cmd，重新进入cmd，执行pip install scrapy，
3.如果还是显示版本过低则需要下载最新版本python -m pip install --upgrade pip
4.如果还是显示NoReturn的话，那就需要重新安装pip，百度，下载安装后一定要重启电脑，
5.如果重装pip还是不行，则需要重新安装python，我现在使用的是python3.6.1版本稳定性不高，可以下python3.6.5稳定性相对高一些

scrapy框架的组件（组成scrapy框架的零件）和流程

组件：

1.引擎（Engine）：整个框架核心
2.爬虫程序（Spider）：数据解析提取
3.调度器（ Scheduler）：维护请求队列
4.下载器(Downloader)：获取响应对象
5.管道文件（PipLine）：数据库入库处理（持久化数据）

流程：

1.引擎找到爬虫程序，爬虫程序返回网页地址给引擎
2.把网页url地址给调度器，入队列，排序，保证爬取页面不重复（不能你爬第一页，它也爬第一页）
3.调度器出队列，把url地址返回给引擎
4.引擎把url地址给下载器，让下载器去发送请求，
5.下载器下载的response响应对象返回给引擎
6.引擎把响应到的数据文件交给爬虫文件（解析提取数据）（不能越级直接给管道）
7.爬虫文件把解析提取的数据信息返回给引擎
8.引擎把数据给管道，管道入库（数据库等）

柠澈！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架下载安装及使用流程

scrapy框架下载安装及使用流程定义：异步处理框架，可配置和可扩展程度非常高，python中使用最广泛的爬虫框架（足够简单，效率足够高，和jquery相似）-------》异步的意思就是，一个程序可以同时干很多事情scrapy框架下载安装：在cmd中输入pip install scrapy指令下载框架：对pip要求很高，如果有一个模块不兼容都下载不了在cmd中输入pip list：检查是否安装...
复制链接

扫一扫

专栏目录