Scrapy框架入门、创建scrapy文件

最新推荐文章于 2023-05-12 15:16:33 发布

BRUIN.

最新推荐文章于 2023-05-12 15:16:33 发布

阅读量366

点赞数

分类专栏： Python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/I_I___LO_VE___YA/article/details/104593536

版权

Python爬虫专栏收录该内容

38 篇文章 2 订阅

订阅专栏

简单理解一下scrapy框架，架构图如下：
scrapy engine 核心引擎
Scheduler 调度器：获取requests生成队列，传递requests至downloader
downloader 下载器：处理requests，获取页面数据。引擎和下载器直接有一个中间件。
spiders 解析器：解析responses，返回items，生成新的requests传递至scheduler。引擎和spiders直接也有一个中间件。
item pipeline 数据管道：生成items队列，处理items
在这里插入图片描述
scrapy的基本框架基本都已经写好了，我们只需要写spiders和item pipeline就可以了，使用scrapy框架即减少了我们书写的代码量，又增加了代码的稳定性和健壮性。想要使用scrapy首先得安装，直接使用cmd pip安装即可：
在这里插入图片描述
安装完成之后输入scrapy可以查看一些操作指令：

更改当前目录 cd path：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200301155607288.png
创建scrapy项目，可以看到目录下创建了一个新的scrapy文件，然后命令行中有提示如何：

按提示操作即可，baidu后面得baidu.com就是只会爬取这个域名下的网页：

然后下面这个parse函数就是我们要解析网页的方式，就可以在parse里写自己解析网页的代码，使用cmd运行scrapy的方法。
在这里插入图片描述