四、网络爬虫之框架(1)

1.框架介绍

Scrapy

Scrapy是一个快速功能强大的网络爬虫框架
在这里插入图片描述

安装

Win平台: “以管理员身份运行”cmd
执行 pip install scrapy
安装后小测:
执行 scrapy ‐h

解决scrapy安装失败的问题

在这里插入图片描述
下载链接:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载Twisted Ctrl+f 搜索Twisted。cp后数字为python版本,例如cp38为python3.8;amd则表示系统位数,例如amd64为64位。

在cmd中输入pip install Twisted的路径,例如下载路径为F:\Twisted-17.9.0-cp36-cp36m-win_amd64.whl,则输入pip install F:\ Twisted-17.9.0-cp36-cp36m-win_amd64.whl

显示Twisted安装成功。接着,就可以安装scrapy了。

Scrapy爬虫框架结构

Scrapy不是一个函数功能库,而是一个爬虫框架。
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
在这里插入图片描述

  • 1 Engine从Spider处获得爬取请求(Request)
  • 2 Engine将爬取请求转发给Scheduler,用于调度
  • 3 Engine从Scheduler处获得下一个要爬取的请求
  • 4 Engine将爬取请求通过中间件发送给Downloader
  • 5 爬取网页后,Downloader形成响应(Response)
    通过中间件发给Engine
  • 6 Engine将收到的响应通过中间件发送给Spider处理
  • 7 Spider处理响应后产生爬取项(scraped Item)
    和新的爬取请求(Requests)给Engine
  • 8 Engine将爬取项发送给Item Pipeline(框架出口)
  • 9 Engine将爬取请求发送给Scheduler

Engine控制各模块数据流,不间断从Scheduler处
获得爬取请求,直至请求为空
框架入口:Spider的初始爬取请求
框架出口:Item Pipeline

2.Scrapy爬虫框架解析

在这里插入图片描述

Engine

(1) 控制所有模块之间的数据流
(2) 根据条件触发事件
不需要用户修改

Downloader

根据请求下载网页
不需要用户修改

Scheduler

对所有爬取请求进行调度管理
不需要用户修改

Downloader Middleware

目的:实施Engine、Scheduler和Downloader
之间进行用户可配置的控制
功能:修改、丢弃、新增请求或响应
用户可以编写配置代码

Spider

(1) 解析Downloader返回的响应(Response)
(2) 产生爬取项(scraped item)
(3) 产生额外的爬取请求(Request)
需要用户编写配置代码

Item Pipelines

(1) 以流水线方式处理Spider产生的爬取项
(2) 由一组操作顺序组成,类似流水线,每个操
作是一个Item Pipeline类型
(3) 可能操作包括:清理、检验和查重爬取项中
的HTML数据、将数据存储到数据库
需要用户编写配置代码

Spider Middleware

目的:对请求和爬取项的再处理
功能:修改、丢弃、新增请求或爬取项
用户可以编写配置代码

3.requests库和scaapy框架的比较

相同点:

两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线
两者可用性都好,文档丰富,入门简单
两者都没有处理js、提交表单、应对验证码等功能(可扩展)

不同点:

在这里插入图片描述

4.scrappy爬虫的常用命令

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值