通配环境变量
vi /etc/profile
export JAVA_HOME=/usr/local/java/jdk1.8.0_25
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
1.修改jdk路径
vi etc/hadoop/hadoop-env.sh
vi etc/hadoop/yarn-env.sh
vi etc/hadoop/mapred-env.sh
/usr/local/java/jdk1.8.0_25
2.core-site.xml
tfs://
file://
gfs://
<!-- 指定HADOOP所使用的文件系统schema,HDFS的老大NameNode地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>
<!-- 指定HADOOP运行时产生文件的存储目录,默认/tmp/hadoop-${user.name}-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/data/hddata</value>
</property>
3.hdfs-site.xml
<!-- 指定HDFS副本的数量-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>
4.mapred-site.xml
mv mapred-sit.xml.template mapred-sit.xml
vi mapred-sit.xml
<!-- 指定mr运行时框架,这里指定在yarn上,默认是local-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.yarn-site.xml
<!--指定YARN的老大(ResourceManger)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>
<!--NodeManager上运行的附属程序。需配置成mapreduce_shuffle,才可运行mapreduce程序默认值 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
6.salves文件里面写上主机名
192.168.33.101 node-1
192.168.33.102 node-2
192.168.33.103 node-3
vi slaves
node-1
node-2
node-3
分发 源路径->目标路径
scp -r /opt/module/hadoop-2.7.2/ atguigu@node-2:/opt/module/
1.首次启动
新集群首次启动需要格式化,格式化之后集群启动成功,后续再也不能重复格式化,并且在hdfs集群的主角色(namenode)上进行
hdfs namenode -format 或 hadoop namenode -format
此时在/opt/module/data/hddata/dfs/name/current的VERSION文件中出现如下,clusterID是唯一标识,所以格式化只能执行一次
#Sun Oct 20 16:19:46 CST 2019
namespaceID=1863058007
clusterID=CID-8ee8ef8b-0488-44ef-8516-3a1c5632d288
cTime=0
storageType=NAME_NODE
blockpoolID=BP-652008839-192.168.33.101-1571559586352
layoutVersion=-63
2.1一键启动
如果配置了etc/hadoop/slaves 和 ssh免密登陆,则可以使用程序脚本启动所有hadoop两个集群的相关进程,在主节点所社会顶的机器上执行
hdfs:$HADOOP_PREFIX/sbin/start-dfs.sh
yarn:$HADOOP_PREFIX/sbin/start-yarn.sh
停止集群:stop-dfs.sh、stop-yarn.sh
2.1单节点逐个启动
主节点上使用以下命令启动HDFS NameNode
hadoop-daemon.sh start namenode
从节点上使用以下命令启动HDFS DataNode
hadoop-daemon.sh start datanode
主节点上使用以下命令启动YARN ResourceManager
yarn-daemon.sh start resourcemanager
从节点上使用以下命令启动YARN NodeManager
hadoop-daemon.sh start nodemanager
位置$HADOOP_PROFIX/sbin/目录下,将start换成stop就是停止
3.启动成功结果
NameNode:http://192.168.33.101:50070
ResourceManager:http://192.168.33.101:8088