作业

最新推荐文章于 2022-10-21 10:20:40 发布

Ct07

最新推荐文章于 2022-10-21 10:20:40 发布

阅读量126

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_50639974/article/details/114274572

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

spark主要特点：
1.运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
2.容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
3.通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
4.运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
Spark和Hadoop的对比
使用Hadoop进行迭代计算非常耗资源
Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果运算，避免看从磁盘中频繁读取数据
Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了
MapReduce所面临的问题
相比于Hadoop MapReduce，Spark主要具有如下优点：
•Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作
，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更
灵活
•Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算
效率更高
Spark基于DAG的任务调度执行机制，要优于的
迭代执行机制
Spark生态系统
Spark的设计遵循“一个软件栈满足不同应用场景的理念”，逐渐形成了一套完整的生态系统
既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等
Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案
因此，Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理
Spark运行架构
Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Woeker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行过程（Executor）
资源管理器可以自带或Mesos或YAERN

Ct07

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
作业

spark主要特点：1.运行速度快：使用DAG执行引擎以支持循环数据流与内存计算2.容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程3.通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件4.运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源Spark和Hadoop的
复制链接

扫一扫