spark原理：概念与架构、工作机制-大数据

最新推荐文章于 2022-09-27 21:59:10 发布

cjmn1168

最新推荐文章于 2022-09-27 21:59:10 发布

阅读量358

点赞数

文章标签：大数据 spark hadoop 编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjmn1168/article/details/108494103

版权

本文对比了Hadoop与Spark，突出Spark的内存计算优势和DAG任务调度，介绍了Spark生态系统、运行架构，强调RDD的容错性和效率，并提及Spark SQL的发展与Spark的部署方式。

摘要由CSDN通过智能技术生成

一、Hadoop、Spark、Storm三大框架比较

Hadoop:离线海量数据批处理,基于磁盘的

Spark：基于内存。

Spark特点：运行速度快，使用DAG执行引擎以支持循环数据流与内存计算，

2、容易使用：多种语言编程，通过spark shell进行交互式编程

3、通用性：提供了完整而强大的技术栈，包括sQL查询、流式计算、机器学习和图算法组件

4、运行模式多样：可运行在独立集群模式中，可以运行与hadoop中，也可以运行在AmazonEC2等云环境中，并可以访问HDFS、HBase、Hive等多种数据源

Scala：多范式编程语言

函数式编程（lisp语言，Haskell语言）

运行于java平台（jvm，虚拟机），兼容java程序

scala特性：具备强大的并发性，支持函数式编程，支持分布式系统，

语法简洁，能提供优雅的API

scala兼容java，运行速度快，能融合到hadoop生态圈中。

scala是spark的主要编程语言，提供REPL（交互式解释器），提高程序开发效率

Spark与Hadoop的对比

hadoop的缺点：1、表达能力有限，只能用map和reduce来表示

2、磁盘开销大

3、延迟高，由于要写磁盘，因此延迟高

4、任务之间的衔接涉及IO开销

Spark相对于hadoop MapReduce的优点：

1、不局限于MapReduce，提供多种数据集操作类型，编程模型比Hadoop MapReduce更灵活

2、spark提供内存计算，可将中间结果放到内存中，对于迭代运算效率更高

3、基于DAG的任务调度机制，效率更高

二、Spark生态系统

spark生态系统主要包含了Spark Core

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。