[笔记迁移][Spark][2]Spark概述

最新推荐文章于 2024-05-10 22:51:01 发布

Bro_Rabbit

最新推荐文章于 2024-05-10 22:51:01 发布

阅读量109

点赞数

分类专栏： bigdata spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_38240095/article/details/84584820

版权

spark 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

bigdata

26 篇文章 0 订阅

订阅专栏

Spark的核心，即一种新型的大数据计算框架（通用的大数据快速处理引擎），可以基于Hadoop上存储(hdfs、Hive)的大数据进行计算
Spark代替Hadoop? No!!!
Spark能够替代的只是Hadoop的一部分，如MapReduce计算框架，Hive查询引擎。Spark本身不提供大数据存储功能和调度功能!
Spark主要基于内存进行计算， 较基于磁盘和网络的MapReduce( Shuffle及MapReduce的计算模型，就决定了MapReuce只适合处理对速度需求不敏感的离线批处理日志任务 )快十倍到百倍不等。
Spark整体架构
Spark SQL与Hive
Spark Streaming 与 Storm
（1）Storm的计算模型：一种非常纯粹的、针对每条记录的、流式实时计算框架。但由于每一条记录都会被处理，故吞吐量不高。【为什么吞吐量不高？每条数据来后直接处理，那么自然会产生每条数据的处理开销，即Storm的很多可用计算资源都会被耗费在大量的操作中，如数据的传输、校验、通信等】

（2）Spark Streaming的计算模型：基于Batch，把时间间隔Batch Interval内传来鹅数据收集起来，然后一次性作为一个Batch给Spark Streaming Application进行处理。因此严格意义上来说，Spark Streaming不是纯粹的实时计算框架，更多的是一种准实时计算框架。因为每条数据的处理额外开销减少，对一个Batch才产生数据传输、校验、通信的开销，所以Spark Streaming的吞吐量远远高于Storm。

Bro_Rabbit

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[笔记迁移][Spark][2]Spark概述

Spark的核心，即一种新型的大数据计算框架（通用的大数据快速处理引擎），可以基于Hadoop上存储(hdfs、Hive)的大数据进行计算Spark代替Hadoop? No!!!Spark能够替代的只是Hadoop的一部分，如MapReduce计算框架，Hive查询引擎。Spark本身不提供大数据存储功能和调度功能!Spark主要基于内存进行计算，较基于磁盘和网络的MapRe...
复制链接

扫一扫

专栏目录