Spark简介

最新推荐文章于 2021-01-14 07:10:27 发布

狮锅艺

最新推荐文章于 2021-01-14 07:10:27 发布

阅读量673

点赞数

分类专栏： Spark Spark原理文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wee_mita/article/details/70307851

版权

Spark是一个计算框架，是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储层，可以融入Hadoop生态系统，一笔不缺失MapReduce的不足。

Spark VS MapReduce

1. 中间输出结果

基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串行的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。

Spark将执行模型抽象为通用的有向无环图执行计划（DAG），这可以将多个Stage的任务串联或并行执行，无须将Stage中间的结果输出到HDFS中。【类似的引擎包括Dryad、Tez】

2. 数据格式和内存布局

由于MapReduce Schema on Read处理方式会引起较大的处理开销。Spark抽象出分布式内存存储结构弹性分布式数据集RDD，进行数据的存储。RDD能支持粗粒度写操作，但对于读取操作，RDD可以精确到每一条记录，这使得RDD可以用来作为分布式索引。

Spark的特性是能够控制数据在不同节点上的分区，用户可以自定义分区策略，如Hash分区等。【Shark和Spark SQL在Spark的基础上实现了列存储和列存储压缩】

3. 执行策略

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark简介

Spark简要介绍
复制链接

扫一扫

专栏目录

狮锅艺 CSDN认证博客专家 CSDN认证企业博客

码龄9年

185: 原创

7万+: 周排名

93万+: 总排名

29万+: 访问

: 等级

4732: 积分

85: 粉丝

54: 获赞

9: 评论

122: 收藏

私信

关注

热门文章

分类专栏

Golang 1篇
感悟 1篇
基础算法（Java） 27篇
Spark原理 8篇
Java实践 33篇
Hadoop实践 29篇
Maven实践 12篇
Shell编程 5篇
深入理解计算机系统 1篇
Linux 30篇
Java 59篇
Spark 8篇
Maven 15篇
Hadoop 46篇
MapReduce 23篇
Mahout 6篇
HDFS 13篇
Ambari 5篇
ZooKeeper 1篇
Windows 6篇
vSphere 5篇
Office 9篇
数据结构与算法分析 28篇
源代码 15篇
GitHub 1篇
图计算 1篇
计算机系统 1篇

最新评论

Hadoop实践（三）---MR作业运行（源码详解）
No Kill Leader: 哈哈
Hadoop实践（三）---MR作业运行（源码详解）
侠客刀: 这叫源码解析，，，
Linux下识别NTFS格式的U盘
程序员部落Pro: 谢谢博主，学习了
基础算法（零）---递归
狮锅艺回复 Mr.隐者: [code=java] package T616; import java.util.Scanner; /** * Created by Promacanthus on 2017/6/16. */ public class fibonacci { private static int k = 0; private long n; fibonacci(long n) { System.out.println(calfibonacci(n)); } private long calfibonacci(long n) { if (n == 0 || n == 1) { k++; return n; } else { return calfibonacci(n - 1) + calfibonacci(n - 2); } } public static void main(String[] args) { Scanner scanner = new Scanner(System.in); long n = scanner.nextLong(); new fibonacci(n); System.out.println("Total call " + k + " times"); } } [/code]
基础算法（零）---递归
Mr.隐者: 打不开代码栏

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。