一、基础
1.优势:高可靠性、高扩展性、高效性、高容错性
2.组成:
-
1x:mapreduce、hdfs、common
-
2x:多加一个yarn
3.hdfs:分布式文件系统
-
NameNode:元数据
-
DataNode:数据
-
Secondary NameNode:对元数据备份
4.yarn:资源协调
-
ResourceManager:集群资源老大
-
NodeManager:单节点服务器老大
-
ApplicationMaster:单任务老大
-
Countainner:分Maptask、ReduceTask
5.mapreduce:计算分为两个阶段
-
Map:并行处理输入数据
-
Reduce:Map结果进行汇总
二、环境
1.安装jdk、hadoop
2.下载地址 https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
3.配置环境变量
-
/etc/profile.d/下建文件,编写全局变量路径,并追加到path
-
再source,或者断开重连