了解Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark是通用大数据处理框架。
A(Algorithms) 算法
M(Machines) 机器
P(People)人
Spark希望在三者之间进行大规模的集成,并且进行展现运用,将大数据转化为有用的信息。
Spark 生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib 等子项目,逐步形成了大数据处理的一站式解决平台。
Spark 是基于内存计算的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据 处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark 部署在大量廉价硬件之上 形成集群。
Spark 是一个开源的类