Spark 生态系统组件

博文视点

于 2017-01-04 10:39:59 发布

阅读量9.8k

点赞数 5

文章标签： Spark Spark-Core spark-mllib spark-streaming

本文链接：https://blog.csdn.net/broadview2006/article/details/80127731

版权

本文介绍了Spark生态系统中的核心组件，包括Spark Core、Spark Streaming、Spark SQL、BlinkDB、MLBase/MLlib、GraphX和SparkR。Spark Core作为基础，提供分布式计算框架，支持多种资源调度管理。Spark Streaming实现高吞吐、高容错的流处理，而Spark SQL则提供SQL接口进行数据查询。BlinkDB允许在大规模数据上进行交互式SQL查询，MLBase/MLlib专注于机器学习，GraphX处理图计算，SparkR则为R语言提供了在Spark上的分布式分析能力。这些组件共同构建了Spark的一站式大数据处理能力。

摘要由CSDN通过智能技术生成

引言：随着大数据技术的发展，实时流计算、机器学习、图计算等领域成为较热的研究方向，而Spark作为大数据处理的“利器”有着较为成熟的生态圈，能够一站式解决类似场景的问题。那么Spark生态系统中有哪些组件你知道吗？下面让我们跟着本文一同了解下这些不可或缺的组件。本文选自《图解Spark：核心技术与案例实战》。

　　Spark 生态系统以Spark Core 为核心，能够读取传统文件（如文本文件）、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源，利用Standalone、YARN 和Mesos 等资源调度管理，完成应用程序分析与处理。这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等，如下图所示，正是这个生态系统实现了“One Stack to Rule Them All”目标。
图片描述

Spark Core

　　Spark Core 是整个BDAS 生态系统的核心组件，是一个分布式大数据处理框架。Spark Core提供了多种资源调度管理，通过内存计算、有向无环图（DAG）等机制保证分布式计算的快速，并引入了RDD 的抽象保证数据的高容错性，其重要特性描述如下。

Spark Core提供了多种运行模式，不仅可以使用自身运行模式处理任务，如本地模式、Standalone，而且可以使用第三方资源调度框架来处理任务，如YARN、MESOS等。相比较而言，第三方资源调度框架能够更细粒度管理资源。
Spark Core提供了有向无环图（DAG）的分布式并行计算框架，并提供内存机制来支持多次迭代计算或者数据共享，大大减少迭代计算之间读取数据的开销，这对于需要进行多次迭代的数据挖掘和分析性能有极大提升。另外，在任务处理过程中移动计算而非移动数据，RDDPartition 可以就近读取分布式文件系统中的数据块到各个节点内存中进行计算。
在Spark 中引入了RDD的抽象，它是分布在一组节点中的只读对象集合，这些集合是弹性的，如果数据集一部分丢失，则可以根据“血统”对它们进行重建，保证了数据的高容错性。

Spark Streaming

　　Spark Streaming 是一个对实时数据流进行高吞吐、高容错的流式处理系统，可以对多种数据源（如Kafka、Flume、Twitter 和ZeroMQ 等）进行类似Map、Reduce 和Join 等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘，如下图。
图片描述
　　相比其他的处理引擎要么只专注于流处理，要么只负责批处理（仅提供需要外部实现的流处理API 接口），而Spark Streaming 最大的优势是提供的处理引擎和RDD 编程模型可以同时进行批处理与流处理。
　　对于传统流处理中一次处理一条记录的方式而言，Spark Streaming 使用的是将流数据离散化处理（Discretized Streams），通过该处理方式能够进行秒级以下的数据批处理。在SparkStreaming 处理过程中，Receiver 并行接收数据，并将数据缓存至Spark 工作节点的内存中。经过延迟优化后，Spark 引擎对短任务（几十毫秒）能够进行批处理，并且可将结果输出至其他系统中。与传统连续算子模型不同，其模型是静态