《Spark大数据分析实战》——1.2节Spark生态系统BDAS

最新推荐文章于 2024-03-04 17:37:31 发布

weixin_34179968

最新推荐文章于 2024-03-04 17:37:31 发布

阅读量219

点赞数

文章标签：大数据 scala 人工智能

原文链接：https://yq.aliyun.com/articles/108511

版权

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章，第1.2节Spark生态系统BDAS，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

1.2　Spark生态系统BDAS
目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。其核心框架是Spark，同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL，提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib，并行图计算框架GraphX，流计算框架Spark Streaming，近似查询引擎BlinkDB，内存分布式文件系统Tachyon，资源管理框架Mesos等子项目。这些子项目在Spark上层提供了更高层、更丰富的计算范式。

9ef2a0ac1ad480302c9e1c62f2d80e92ae0eddab

下面对BDAS的各个子项目进行更详细的介绍。
（1）Spark
Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供了更为丰富的算子，例如f?ilter、join、groupByKey等。Spark将分布式数据抽象为RDD（弹性分布式数据集），并实现了应用任务调度、RPC、序列化和压缩，并为运行在其上层的组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴函数式的编程思想，提供与Scala类似的编程接口。
图1-2所示即为Spark的处理流程（主要对象为RDD）。
Spark将数据在分布式环境下分区，然后将作业转化为有向无环图（DAG），并分阶段进行DAG的调度和任务的分布式并行处理。
（2）Spark SQL
Spark SQL提供在大数据上的SQL查询功能，类似于Shark在整个生态系统的角色，它们可以统称为SQL on Spark。之前，由于Shark的查询编译和优化器依赖Hive，使得Shark不得不维护一套Hive分支。而Spark SQL使用Catalyst作为查询解析和优化器，并在底层使用Spark作为执行引擎实现SQL的算子。用户可以在Spark上直接书写SQL，相当于为Spark扩充了一套SQL算子，这无疑更加丰富了Spark的算子和功能。同时Spark SQL不断兼容不同的持久化存储（如HDFS、Hive等），为其发展奠定广阔的空间。

b1d1db1b623cc9e9bef0d326f4d1d082c88978e4

（3）Spark Streaming
Spark Streaming通过将流数据按指定时间片累积为RDD，然后将每个RDD进行批处理，进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。
（4）GraphX
GraphX基于BSP模型，在Spark之上封装类似Pregel的接口，进行大规模同步全局的图计算，尤其是当用户进行多轮迭代的时候，基于Spark内存计算的优势尤为明显。
（5）MLlib
MLlib是Spark之上的分布式机器学习算法库，同时包括相关的测试和数据生成器。MLlib支持常见的机器学习问题，例如分类、回归、聚类以及协同过滤，同时也包括一个底层的梯度下降优化基础算法。

weixin_34179968

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Spark大数据分析实战》——1.2节Spark生态系统BDAS

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章，第1.2节Spark生态系统BDAS，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看1.2　Spark生态系统BDAS目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。其核心框架是Spark...
复制链接

扫一扫