前言
整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。
生态圈
数据存储:HDFS
HDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。
如上图:
- NameNode:HDFS管理节点,存储元数据,同时负责读,写调度和存储分配。
- DataNode:数据存储节点,用来存储数据。在DataNode上的每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都不在同一台机器上。
数据分析:MapReduce
mapreduce是分布式计算模型,离线计算。mapreduce的发展已经经过了15个年头。在大数据的今天,数据量都在PB甚至EB级别,对数据分析效率有了更高的要求。于是,第二代计算模型产生了,比如Tez和Spark。它们大量使用内存,灵活