Spark Streaming系列-1、什么是Spark Streaming？

最新推荐文章于 2023-05-27 10:30:35 发布

技术武器库

最新推荐文章于 2023-05-27 10:30:35 发布

阅读量1.1k

点赞数

分类专栏：大数据专栏文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/l848168/article/details/126585346

版权

大数据专栏专栏收录该内容

83 篇文章 27 订阅

订阅专栏

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、 http://spark.apache.org/sql/
在这里插入图片描述

Spark Streaming 介绍

在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架， Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（Spark 2.0出现）。

在传统的数据处理过程中，我们往往先将数据存入数据库中，当需要的时候再去数据库中进行检索查询，将处理的结果返回给请求的用户；另外， MapReduce 这类大数据处理框架，更多应用在离线计算场景中。而对于一些实时性要求较高的场景，我们期望延迟在秒甚至毫秒级别，就需要引出一种新的数据计算结构——流式计算，对无边界的数据进行连续不断的处理、聚合和分析。

Streaming 应用场景

如下的场景需求, 仅仅通过传统的批处理/离线处理/离线计算/处理历史数据是无法完成的：

电商实时大屏

1）、电商实时大屏：每年双十一时，淘宝和京东实时订单销售额和产品数量大屏展示，要求：

数据量大，可能每秒钟上万甚至几十万订单量
快速的处理，统计出不同维度销售订单额，以供前端大屏展示

在这里插入图片描述

商品推荐

2）、商品推荐：京东和淘宝的商城在购物车、商品详情等地方都有商品推荐的模块，商品推荐的要求：

快速的处理, 加入购物车以后就需要迅速的进行推荐
数据量大
需要使用一些推荐算法

在这里插入图片描述

工业大数据

3）、工业大数据：现在的工场中, 设备是可以联网的, 汇报自己的运行状态, 在应用层可以针对这些数据来分析运行状况和稳健程度, 展示工件完成情况, 运行情况等，工业大数据的需求：

快速响应, 及时预测问题
数据是以事件的形式动态的产品和汇报
因为是运行状态信息, 且一般都是几十上百台机器, 所以汇报的数据量很大

在这里插入图片描述

集群监控

4）、集群监控：一般的大型集群和平台, 都需要对其进行监控，监控的需求

要针对各种数据库, 包括 MySQL, HBase 等进行监控
要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等
要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等
工具的日志输出是非常多的, 往往一个用户的访问行为会带来几百条日志, 这些都要汇报,所以数据量比较大
要从这些日志中, 聚合系统运行状况

在这里插入图片描述
上述展示场景需要实时对数据进行分析处理，属于大数据中领域：实时流式数据处理，概况应用场景如下几个大方面：

在这里插入图片描述

Lambda架构

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。 Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm， Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。

在这里插入图片描述
Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。 Lambda架构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop， Kafka， Storm， Spark， Hbase等各类大数据组件。

在这里插入图片描述
Lambda架构通过分解的三层架构来解决该问题：批处理层（Batch Layer），速度层（SpeedLayer）和服务层（Serving Layer）。

1）、批处理层（Batch Layer）

批处理层主用由Hadoop来实现，负责数据的存储和产生随意的视图数据；
承担了两个职责：存储Master Dataset，这是一个不变的持续增长的数据集；针对这个Master Dataset进行预运算；
Batch Layer执行的是批量处理，例如Hadoop或者Spark支持的Map-Reduce方式；

2）、速度层（Speed Layer）

从对数据的处理来看， speed layer与batch layer非常相似，它们之间最大的区别是前者只处理最近的数据，后者则要处理所有的数据；
为了满足最小的延迟， speed layer并不会在同一时间读取所有的新数据，相反，它会在接收到新数据时，更新realtime view，而不会像batch layer那样重新运算整个view；
speed layer是一种增量的计算，而非重新运算（recomputation）；
Speed Layer的作用包括：对更新到serving layer带来的高延迟的一种补充、快速、增量的算法和最终Batch Layer会覆盖speed layer。

在这里插入图片描述
3）、服务层（Serving Layer）

服务层负责建立索引和呈现视图，以便于它们可以被非常好被查询到；
Batch Layer通过对master dataset执行查询获得了batch view，而Serving Layer就要负责对batch view进行操作，从而为最终的实时查询提供支撑；
职责包含：对batch view的随机访问和更新batch view；

在这里插入图片描述

总结下来， Lambda架构就是如下的三个等式：
在这里插入图片描述
整个Lambda架构如下图所示：

下图给出了Lambda架构中各个层常用的组件：

数据流存储可选用基于不可变日志的分布式消息系统Kafka；
Batch Layer数据集的存储可选用Hadoop的HDFS，或者是阿里云的ODPS； Batch View的预计算可以选用MapReduce或Spark；
Batch View自身结果数据的存储可使用MySQL（查询少量的最近结果数据），或HBase（查询大量的历史结果数据）。
Speed Layer增量数据的处理可选用Storm或Spark Streaming或Flink或StructuredStreaming；
Realtime View增量结果数据集为了满足实时更新的效率，可选用Redis等内存NoSQL。

在这里插入图片描述

Streaming 计算模式

流式处理任务是大数据处理中很重要的一个分支，关于流式计算的框架也有很多，如比较出名的Storm流式处理框架，是由Nathan Marz等人于 2010 年最先开发，之后将Storm开源，成为Apache 的顶级项目， Trident 对Storm进行了一个更高层次的抽象；另外由LinkedIn贡献给社区的Samza 也是一种流处理解决方案，不过其构建严重依赖于另一个开源项目 Kafka。 Spark
Streaming 构建在Spark的基础之上，随着Spark的发展， Spark Streaming和Structured Streaming也受到了越来越多的关注。

不同的流式处理框架有不同的特点，也适应不同的场景，主要有如下两种模式。

模式一：原生流处理（Native）