Spark大数据处理读书笔记一:Spark简介

1.1 Spark是什么

Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。

Spark 之于 Hadoop
Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统,如Hbase、Hive等。

Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储层,可融入Hadoop的生态系统,以弥补缺失MapReducede 不足。

Spark相比Hadoop MapReduce的优势如下:
1)中间结果输出 MapReduce将中间结果输出到磁盘上(HDFS),进行存储和容错。Spark将执行模型抽象为通用的有向无环图执行计划(DAG),中间结果不用输出到HDFS中。
2)数据格式和内存布局
Spark抽象出分布式内存存储结构弹性分布式数据集RDD,进行数据的存储。
3)执行策略
MapReduce在数据Shuffle之前花费了大量的时间来排序,Spark则可减轻上述问题带来的开销。
4)任务调度的开销

Spark能带来什么
Spark的一站式解决方案有许多的优势,具体如下:
1)打造全栈多计算范式的高效数据流水线
Spark支持复杂查询。在简单的“map”及"reduce"操作之外,Spark还支持SQL查询、流式计算、机器学习和图算法。同时,用户可以在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值