Spark大数据处理读书笔记一：Spark简介

最新推荐文章于 2024-05-24 00:08:38 发布

原创

最新推荐文章于 2024-05-24 00:08:38 发布 · 733 阅读

0 ·

CC 4.0 BY-SA版权

1.1 Spark是什么

Spark是基于内存计算的大数据并行计算框架，是一个用来实现快速而通用的集群计算平台。

Spark 之于 Hadoop：
Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统，如Hbase、Hive等。

Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储层，可融入Hadoop的生态系统，以弥补缺失MapReducede 不足。

Spark相比Hadoop MapReduce的优势如下：
1）中间结果输出 MapReduce将中间结果输出到磁盘上（HDFS），进行存储和容错。Spark将执行模型抽象为通用的有向无环图执行计划（DAG）,中间结果不用输出到HDFS中。
2）数据格式和内存布局
Spark抽象出分布式内存存储结构弹性分布式数据集RDD，进行数据的存储。
3）执行策略
MapReduce在数据Shuffle之前花费了大量的时间来排序，Spark则可减轻上述问题带来的开销。
4）任务调度的开销

Spark能带来什么
Spark的一站式解决方案有许多的优势，具体如下：
1）打造全栈多计算范式的高效数据流水线
Spark支持复杂查询。在简单的“map”及"reduce"操作之外，Spark还支持SQL查询、流式计算、机器学习和图算法。同时，用户可以在同一个工作流中无缝搭配这些计算范式。
2）轻量级快速处理
Spark通过将中间结果缓存在内存减少磁盘I/O来达到性能的提升。
3）易于使用，Spark支持多语言
4）与HDFS等存储层兼容
Spark可以独立运行，除了可以运行在当下的YARN等集群管理系统之外，它还可以读取已有的任何Hadoop数据。这是个非常大的优势，它可以运行在任何Hadoop数

最低0.47元/天解锁文章