大数据生态与Spark简介

最新推荐文章于 2022-07-14 12:50:26 发布

大数据19-2时晓静18

最新推荐文章于 2022-07-14 12:50:26 发布

阅读量404

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/qq_51361171/article/details/114240720

版权

大数据生态与Spark简介
一、Spark简介
1、Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
2、Spark的特点
①运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
②容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
③通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
④运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
3、Spark架构图
在这里插入图片描述
4、Hadoop与Spark的对比
Hadoop存在如下一些缺点：
①表达能力有限②磁盘IO开销大③延迟高
④任务之间的衔接涉及IO开销⑤在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务。⑤使用Hadoop进行迭代计算非常耗资源
相比于Hadoop MapRedwuuce，Spark主要具有如下优点：
①Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
②Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
③Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制
5、Spark会取代Hadoop吗？
①Hadoop包括两大核心：HDFS和MapReduce
②Spark作为计算框架，与MapReduce是对等的
③谈到“取代”，Spark应该是取代MapReduce，而不是整个Hadoop
④Spark和Hadoop生态系统共存共荣，Spark借助于Hadoop的HDFS、HBase等来完成数据的存储，然后，由Spark完成数据的计算

大数据19-2时晓静18

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据生态与Spark简介

大数据生态与Spark简介一、Spark简介1、Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2、Spark的特点①运行速度快：使用DAG执行引擎以支持循环数据流与内存计算②容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程③通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件④运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行
复制链接

扫一扫