浅析爬虫框架scrapy

定义

scrapy框架作为一种异步处理框架,可配置和可扩展程度非常高,是在Python中使用最广泛的爬虫框架.

安装

Ubuntu安装
1、安装依赖包(ubuntu18.04可以跳过此步)
1、sudo apt-get install libffi-dev
2、sudo apt-get install libssl-dev
3、sudo apt-get install libxml2-dev
4、sudo apt-get install python3-dev
5、sudo apt-get install libxslt1-dev
6、sudo apt-get install zlib1g-dev
7、sudo pip3 install -I -U service_identity

2、安装scrapy框架
1、sudo pip3 install Scrapy

#Windows安装
cmd命令行(管理员): python -m pip install Scrapy
#Error: Microsoft Visual C++ 14.0 is required xxx(需先装Microsoft Visual C++ )

Scrapy框架五大组件

1、引擎(Engine):整个框架核心
2、调度器(Scheduler) :维护请求队列
3、下载器(Downloader):获取响应对象
4、爬虫文件(Spider) :数据解析提取
5、项目管道(Pipeline):数据入库处理


#下载器中间件(Downloader Middlewares) : 引擎->下载器,包装请求(随机代理等)
#蜘蛛中间件(Spider Middlewares) : 引擎->爬虫文件,可修改响应对象属性

在这里插入图片描述

scrapy爬虫工作流程

爬虫项目启动
1、由引擎向爬虫程序索要第一个要爬取的URL,交给调度器去入队列
2、调度器处理请求后出队列,通过下载器中间件交给下载器去下载
3、下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
4、爬虫程序进行数据提取:

  • 1、数据交给管道文件去入库处理
  • 2、对于需要继续跟进的URL,再次交给调度器入队列,依次循环
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值