Scrapy的基本使用

Scrapy的介绍

Scrapy包含了爬虫的所有的单元,并且提供了很多有用的中间插件,可以自由控制,便捷使用,Scrapy框架流行图如下:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5LiN6KaB6K-05LqG,size_19,color_FFFFFF,t_70,g_se,x_16

下面对最主要的组件进行介绍:

  • Scrapy Engine (引擎):负责所有的组件数据传递。
  • Scheduler (调度器):负责接收引擎发送的请求并排入队列,当引擎请求时,在传递给引擎。
  • Downloader (下载器):接收引擎传递的请求并下载页面数据,然后将其获取到的响应 传递给引擎,由引擎传递给spider进行处理。
  • Spider (爬虫) :用户主要编写的爬虫文件就是此文件,负责爬取数据。
  • Item Pipeline (管道) : 负责处理从Spider中获取到的Item,进行过滤,存储等操作。

Scrapy项目的创建

第一步:Scrapy startproject 项目名

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5LiN6KaB6K-05LqG,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

 第二部:首先 cd 爬虫名  (防止创建到其他目录中)

                然后   Scrapy genspider  爬虫名  域名

如果没报错就代表创建成功,可以在pychram中打开创建的目录会出现以下文件:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5LiN6KaB6K-05LqG,size_11,color_FFFFFF,t_70,g_se,x_16

 出现以上文件就代表你已成功创建你的第一个Scrapy爬虫了。

spiders文件夹:就是你创建的爬虫,你所创建的爬虫都会保存在这个文件中。

items.py文件:决定爬取那些项目。是Scrapy中最简单的一项。

pipelines.py文件:决定爬取的内容如何处理。

settings.py文件:决定谁去处理爬取的内容。

如果各项文件都写好,可以通过以下命令运行爬虫(基于终端命令进行运行):

Scrapy  crawl  爬虫名

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不要说了

大哥 阔气 给大哥点点关注

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值