- Hadoop
- Spark
- Spark 和 Hadoop区别和联系
- Hadoop 的 HDFS
- Hadoop 的 MapReduce
- Spark 宽依赖和窄依赖
- Spark RDD运行过程
- Spark RDD阶段划分
Hadoop
Hadoop是Apache软件基金旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构,基于Java开发,有很好的跨平台性,并且可以部署在廉价的计算机上。核心是分布式文件系统HDFS 和 MapReduce。
Hadoop是一个能对大量数据进行分布式处理的软件框架,具有以下特性
- 高可靠性
- 高效性:能处理PB级数据
- 高可扩展性
- 高容错性:数据冗余存储
- 成本低
- 支持多种编程语言
Hadoop由以下项目组成
- Common: 各个项目的功能
- HDFS: 分布式文件系统,对Google GFS的开源实现,高可用和高性能
- MapReduce:编程模型,用于大规模数据集的并行运算,将计算过程高度抽象到Map和Reduce两个函数
- Hive:基于Hadoop的数据仓库工具,可以对Hadoop文件中的数据集进行数据整理、特殊查询、分析存储 Hi