初识Spark的朋友 ,下面是我汇总后的Spark总结和自己整合的一张流程图,希望可以帮助到你,也可以给我提出建议,一同进步
1.认知Spark:
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。据官网上说Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,将应用在磁盘上的运行速度提升10倍。
1.1 为啥能比MR快这么多倍?
Spark的job中间输出可以保存在内存,无需读写HDFS,先进的DAG调度机制
1.2 三块入门Spark基石