Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。
Spark有如下优势:
- Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求
- 官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
RDD
:
Spark
的核心概念是
RDD (
resilient distributed dataset
)
,指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
Spark
的核心思路就是将数据集缓存在内存中加快读取速度,同时用
lineage
关联的
RDD
以较小的性能代价保证数据的鲁棒性。