Spark 译为火花
Spark定义
Spark是采用Scala语言编写的一个通用的大规模数据快速处理分析引擎,是基于内存计算的大数据并行计算框架,Spark在性能和方案的统一性都具有显著的优势,它可以提高数据处理的速度,也可保证了高容错性和高可伸缩性。
Spark包含SparkCore、SparkSQL、Spark Streaming、MLlib、Graph可以解决大数据中的Batch Processing、Stream Processing、Ad-hocQuery等三大核心问题。
Spark特点
-
可以无缝集成Hadoop,Spark可以运行在YARN上,可以读取H