Python爬虫学习笔记

最新推荐文章于 2024-04-30 18:03:09 发布

lliweei

最新推荐文章于 2024-04-30 18:03:09 发布

阅读量712

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/lliweei/article/details/121964772

版权

笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文介绍了Scrapy爬虫框架的基本概念、结构和组件，包括Spider、Scheduler、Downloader、Engine和Pipelines等。讲解了框架的特点和优势，并提供了安装步骤，特别提示了Windows用户需要注意的依赖库和wheel包的安装。最后，通过实际操作演示了如何创建和运行第一个Scrapy爬虫项目。

摘要由CSDN通过智能技术生成

爬虫框架之scrapy
1，什么是框架
2，爬虫框架scrapy结构
3，scrapy框架组件说明
4，scrapy框架安装与坑
5，使用框架创建第一个爬虫

前言
1，本课需要你对类、面向对象编程有一定的了解，包含对象，继承，重写
2，对生成器有一定了解
3，并非爬虫必修课，没有框架也可以爬
4，框架是从业务对高复用代码的封装
5，工业级产物，类似我们从沟通靠喊到OA协同办公
6，需要在管理层面和可持续性维护的层面来看待框架

什么是框架
框架（Framework）是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构，类和对象的分割，各部分的主要
责任，类别和对象怎么协作，以及控制流程。框架预定义了这些设计参数，以便于应用设计者或实现者能集中精力与应用本身的特定细节

框架特点：
1，框架是工作单元是一个工程文件组，并非一个或多个PY文件
2，框架内部已经对特定功能基于业务需求进行了封装（例如random，randint）
3，框架本身会组织，协调内部的工作流程，这个有别于我们常规的理解
4，框架通常由多个模块组成，每个模块有具体的任务或功能
5，框架其实就是一个项目模板或者说写作大纲
6，框架的执行效率通常高于普通硬编码（对输入输出都有优化）

框架很像一条流水线，每个单元只要把自己的活干好了即可。这条流水线可以生产汽车，可以生产口罩

爬虫框架scrapy结构
爬虫器：Spider 请求发起数据解析
管道： Items/Pipelines 数据持久化保存
调度器：Scheduler 任务存储任务执行调度
下载器：Downloader 执行请求或下载动作
主引擎：ENGINE

scrapy框架组件
Engine（引擎）：负责Spider，ItemPipline，Downloader，Scheduler中间的通讯，信号，数据传递以及流程控制

Scheduler（调度器）：负责接受引擎发送来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎

Downloader（下载器）：负责下载Scrapy Engine发送的所有Requests请求，并将其获取到的Responses交给Scrapy Engine，由引擎交给Spider来处理。

Spider(爬虫)：负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler。

Item Pipelines(管道)：负责处理Spider中获取到的Item，并进行后期处理（详细分析，过滤，存储器）的地方

Dowmlodaer Middlewares（下载中间件）：可以当做是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：可理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses；和从Spider出去的Requests）

scrapy框架安装与坑
scrapy需要C++的依赖库，python提供了一个wheel包，根据不同的库需要的wheel包进行下载
下载网站：http://www.Ifd.uci.edu/~gohlke/pythonlibs/
windows用户注意：
1，pip install wheel
2，pip install pywin32
3,pip install Twisted-20.30-cp37m-win amd64.whl(按需安装,先下载)
4,pip install scrapy
wheel包的存放位置：放哪都行，建议放在Scripts目录下
安装后测试
命令行，交互模式下，import scrapy，运行后没有报错
纯命令行，执行：scrapy-h，运行后没有报错

如何使用scrapy框架
创建项目 scrapy startproject mySpiderProject （注意：这个在命令行完成）
创建完成后，有一个mySpiderProject文件
生成工程文件：
创建爬虫文件：scrapy genspider theSpider www.baidu.com(命令行完成)
执行爬虫 scrapy crawl theSpider（命令行完成）

好了我去实战一下试试。
课程笔记2021年12月15日