-
Spark的核心,即一种新型的大数据计算框架(通用的大数据快速处理引擎),可以基于Hadoop上存储(hdfs、Hive)的大数据进行计算
-
Spark代替Hadoop? No!!!
Spark能够替代的只是Hadoop的一部分,如MapReduce计算框架,Hive查询引擎。Spark本身不提供大数据存储功能和调度功能! -
Spark主要基于内存进行计算, 较基于磁盘和网络的MapReduce( Shuffle及MapReduce的计算模型,就决定了MapReuce只适合处理对速度需求不敏感的离线批处理日志任务 )快十倍到百倍不等。
-
Spark整体架构
-
Spark SQL与Hive
-
Spark Streaming 与 Storm
(1)Storm的计算模型:一种非常纯粹的、针对每条记录的、流式实时计算框架。但由于每一条记录都会被处理,故吞吐量不高。【为什么吞吐量不高?每条数据来后直接处理,那么自然会产生每条数据的处理开销,即Storm的很多可用计算资源都会被耗费在大量的操作中,如数据的传输、校验、通信等】(2)Spark Streaming的计算模型:基于Batch,把时间间隔Batch Interval内传来鹅数据收集起来,然后一次性作为一个Batch给Spark Streaming Application进行处理。因此严格意义上来说,Spark Streaming不是纯粹的实时计算框架,更多的是一种准实时计算框架。因为每条数据的处理额外开销减少,对一个Batch才产生数据传输、校验、通信的开销,所以Spark Streaming的吞吐量远远高于Storm。
[笔记迁移][Spark][2]Spark概述
最新推荐文章于 2024-05-10 22:51:01 发布