三大核心组件:HDFS+YARN+MR
- HDFS:分布式文件系统
1、文件被切成多块,分别存储在多个服务器的本地文件系统中
2、对用户屏蔽了一些底层的信息(文件被切成了几块?存放在那些服务器上)提供了一个抽象的统一接口
3、文件可以保存多个备份
4、HDFS的文件和具体实际的存储位置之间的对应关系由一个专门的服务器进行管理(namenode)
特点:容量可以扩展(增加服务器);有备份,存储可靠性高,吞吐量大;用户只需要关心hdfs的文件路径,无需关心文件是怎么存放的,存放在那里?
- YARN:资源管理调度系统(分配硬盘内存等资源,用这些资源运行程序的计算
- MR:分布式运算框架
特点:1、将业务分成两个阶段,Map+Reduce(类group by +join过程)
2、开发人员只要关心业务逻辑即可