Python爬虫学习笔记

本文介绍了Scrapy爬虫框架的基本概念、结构和组件,包括Spider、Scheduler、Downloader、Engine和Pipelines等。讲解了框架的特点和优势,并提供了安装步骤,特别提示了Windows用户需要注意的依赖库和wheel包的安装。最后,通过实际操作演示了如何创建和运行第一个Scrapy爬虫项目。
摘要由CSDN通过智能技术生成

爬虫框架之scrapy
1,什么是框架
2,爬虫框架scrapy结构
3,scrapy框架组件说明
4,scrapy框架安装与坑
5,使用框架创建第一个爬虫

前言
1,本课需要你对类、面向对象编程有一定的了解,包含对象,继承,重写
2,对生成器有一定了解
3,并非爬虫必修课,没有框架也可以爬
4,框架是从业务对高复用代码的封装
5,工业级产物,类似我们从沟通靠喊到OA协同办公
6,需要在管理层面和可持续性维护的层面来看待框架

什么是框架
框架(Framework)是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构,类和对象的分割,各部分的主要
责任,类别和对象怎么协作,以及控制流程。框架预定义了这些设计参数,以便于应用设计者或实现者能集中精力与应用本身的特定细节

框架特点:
1,框架是工作单元是一个工程文件组,并非一个或多个PY文件
2,框架内部已经对特定功能基于业务需求进行了封装(例如random,randint)
3,框架本身会组织,协调内部的工作流程,这个有别于我们常规的理解
4,框架通常由多个模块组成,每个模块有具体的任务或功能
5,框架其实就是一个项目模板或者说写作大纲
6,框架的执行效率通常高于普通硬编码(对输入输出都有优化)

框架很像一条流水线,每个单元只要把自己的活干好了即可。这条流水线可以生产汽车,可以生产口罩

爬虫框架scrapy结构
爬虫器:Spider 请求发起 数据解析
管道: Items/Pipelines 数据持久化保存
调度器:Scheduler 任务存储 任务执行调度
下载器:Downloader 执行请求或下载动作
主引擎:ENGINE

scrapy框架组件
Engine(引擎):负责Spider,ItemPipline,Downloader,Scheduler中间的通讯,信号,数据传递以及流程控制

Scheduler(调度器):负责接受引擎发送来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎

Downloader(下载器):负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交给Scrapy Engine,由引擎交给Spider来处理。

Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler。

Item Pipelines(管道):负责处理Spider中获取到的Item,并进行后期处理(详细分析,过滤,存储器)的地方

Dowmlodaer Middlewares(下载中间件):可以当做是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):可理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

scrapy框架安装与坑
scrapy需要C++的依赖库,python提供了一个wheel包,根据不同的库需要的wheel包进行下载
下载网站:http://www.Ifd.uci.edu/~gohlke/pythonlibs/
windows用户注意:
1,pip install wheel
2,pip install pywin32
3,pip install Twisted-20.30-cp37m-win amd64.whl(按需安装,先下载)
4,pip install scrapy
wheel包的存放位置:放哪都行,建议放在Scripts目录下
安装后测试
命令行,交互模式下,import scrapy,运行后没有报错
纯命令行,执行:scrapy-h,运行后没有报错

如何使用scrapy框架
创建项目 scrapy startproject mySpiderProject (注意:这个在命令行完成)
创建完成后,有一个mySpiderProject文件
生成工程文件:
创建爬虫文件:scrapy genspider theSpider www.baidu.com(命令行完成)
执行爬虫 scrapy crawl theSpider(命令行完成)

好了我去实战一下试试。
课程笔记2021年12月15日

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值