爬虫框架之scrapy
1,什么是框架
2,爬虫框架scrapy结构
3,scrapy框架组件说明
4,scrapy框架安装与坑
5,使用框架创建第一个爬虫
前言
1,本课需要你对类、面向对象编程有一定的了解,包含对象,继承,重写
2,对生成器有一定了解
3,并非爬虫必修课,没有框架也可以爬
4,框架是从业务对高复用代码的封装
5,工业级产物,类似我们从沟通靠喊到OA协同办公
6,需要在管理层面和可持续性维护的层面来看待框架
什么是框架
框架(Framework)是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构,类和对象的分割,各部分的主要
责任,类别和对象怎么协作,以及控制流程。框架预定义了这些设计参数,以便于应用设计者或实现者能集中精力与应用本身的特定细节
框架特点:
1,框架是工作单元是一个工程文件组,并非一个或多个PY文件
2,框架内部已经对特定功能基于业务需求进行了封装(例如random,randint)
3,框架本身会组织,协调内部的工作流程,这个有别于我们常规的理解
4,框架通常由多个模块组成,每个模块有具体的任务或功能
5,框架其实就是一个项目模板或者说写作大纲
6,框架的执行效率通常高于普通硬编码(对输入输出都有优化)
框架很像一条流水线,每个单元只要把自己的活干好了即可。这条流水线可以生产汽车,可以生产口罩
爬虫框架scrapy结构
爬虫器:Spider 请求发起 数据解析
管道: Items/Pipelines 数据持久化保存
调度器:Scheduler 任务存储 任务执行调度
下载器:Downloader 执行请求或下载动作
主引擎:ENGINE
scrapy框架组件
Engine(引擎):负责Spider,ItemPipline,Downloader,Scheduler中间的通讯,信号,数据传递以及流程控制
Scheduler(调度器):负责接受引擎发送来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎
Downloader(下载器):负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交给Scrapy Engine,由引擎交给Spider来处理。
Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler。
Item Pipelines(管道):负责处理Spider中获取到的Item,并进行后期处理(详细分析,过滤,存储器)的地方
Dowmlodaer Middlewares(下载中间件):可以当做是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):可理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)
scrapy框架安装与坑
scrapy需要C++的依赖库,python提供了一个wheel包,根据不同的库需要的wheel包进行下载
下载网站:http://www.Ifd.uci.edu/~gohlke/pythonlibs/
windows用户注意:
1,pip install wheel
2,pip install pywin32
3,pip install Twisted-20.30-cp37m-win amd64.whl(按需安装,先下载)
4,pip install scrapy
wheel包的存放位置:放哪都行,建议放在Scripts目录下
安装后测试
命令行,交互模式下,import scrapy,运行后没有报错
纯命令行,执行:scrapy-h,运行后没有报错
如何使用scrapy框架
创建项目 scrapy startproject mySpiderProject (注意:这个在命令行完成)
创建完成后,有一个mySpiderProject文件
生成工程文件:
创建爬虫文件:scrapy genspider theSpider www.baidu.com(命令行完成)
执行爬虫 scrapy crawl theSpider(命令行完成)
好了我去实战一下试试。
课程笔记2021年12月15日