Spark 译为火花
Spark定义
Spark是采用Scala语言编写的一个通用的大规模数据快速处理分析引擎,是基于内存计算的大数据并行计算框架,Spark在性能和方案的统一性都具有显著的优势,它可以提高数据处理的速度,也可保证了高容错性和高可伸缩性。
Spark包含SparkCore、SparkSQL、Spark Streaming、MLlib、Graph可以解决大数据中的Batch Processing、Stream Processing、Ad-hocQuery等三大核心问题。
Spark特点
-
可以无缝集成Hadoop,Spark可以运行在YARN上,可以读取Hadoop的HDFS,HBase等一切Hadoop的数据
-
Spark可以不依赖于第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架
-
快速基于内存计算速度是MR的100倍,基于