爬虫——Scrapy框架 (初步学习+简单案例)

目录

1.scrapy基本用途:

2.结构:

3.scrapy文件结构(示例:game)

4.scrapy安装

二、 简单实例

1.创建项目(打开命令窗口)

2.打开项目 


一、Scrapy框架

1.scrapy基本用途:

Scrapy是一个快速、高效率的网络爬虫框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy被广泛用于数据挖掘、监测和自动化测试。

2.结构:

1. Engine(引擎):用来处理整个系统的数据流和时间,是整个框架的核心,可以理解为中央处理器,负责数据的流转和逻辑的处理。
2. Scheduler(调度器):接收Engine发过来的request并将其加入队列中,也可发回Engine,供给Downloader执行,主要维护request的调度逻辑
3. Item:是抽象的数据结构。定义了爬取结果的数据结构,爬取的结果会被赋值成Item对象,每个Item都是一个类,类里面定义了爬取结果的数据字段,可以理解为用来规定数据的存储格式。
4. Spiders(爬虫):负责解析Responses并生成Item和新的请求,然后发给Engine进行处理。
5. Downloader(下载器):负责下载Engine发送的所有请求,将获取的Response返回给Engine,再发给Spiders处理。
6. Item Pipelinses(管道):负责Spiders从页面中抽取的Item,做数据清洗、验证、存储等工作

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值