Scrapy框架入门、创建scrapy文件

简单理解一下scrapy框架,架构图如下:
scrapy engine 核心引擎
Scheduler 调度器:获取requests生成队列,传递requests至downloader
downloader 下载器:处理requests,获取页面数据。引擎和下载器直接有一个中间件。
spiders 解析器:解析responses,返回items,生成新的requests传递至scheduler。引擎和spiders直接也有一个中间件。
item pipeline 数据管道:生成items队列,处理items
在这里插入图片描述
scrapy的基本框架基本都已经写好了,我们只需要写spiders和item pipeline就可以了,使用scrapy框架即减少了我们书写的代码量,又增加了代码的稳定性和健壮性。想要使用scrapy首先得安装,直接使用cmd pip安装即可:
在这里插入图片描述
安装完成之后输入scrapy可以查看一些操作指令:
在这里插入图片描述
更改当前目录 cd path:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200301155607288.png
创建scrapy项目,可以看到目录下创建了一个新的scrapy文件,然后命令行中有提示如何:
在这里插入图片描述
在这里插入图片描述
按提示操作即可,baidu后面得baidu.com就是只会爬取这个域名下的网页:
在这里插入图片描述
在这里插入图片描述
然后下面这个parse函数就是我们要解析网页的方式,就可以在parse里写自己解析网页的代码,使用cmd运行scrapy的方法。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值