一、大数据相关概念
1. 集群
很多机器共同完成一个任务,多台机器叫做一个集群,每一个机器叫做一个节点。
2. 分布式
一个任务被分成多个小任务,每个机器只负责一个小任务,这个任务的执行就是分布式执行。
3. 负载均衡
同一个集群中的每一个节点分担的任务相等
二、Hadoop模块
1. common
工具类,为其它模块提供公共工具,包括rpc通信模块
2. HDFS
Hadoop分布式文件系统。分布式数据存储模块
3. MapReduce
分布式数据计算框架
4. Yarn
分布式资源调度框架,负责为每一个计算任务分配资源
其中 HDFS 和 Yarn 都是主从架构。主节点负责管理,从节点真正执行任务。