1.大体流程
1)准备3台客户机(关闭防火墙、静态ip、主机名称)
2)安装jdk
3)配置环境变量
4)安装hadoop
5)配置环境变量
6)安装ssh
7)配置集群
8)启动测试集群
2.设置ssh无密登录
ssh 192.168.1.103输入之后直接输yes 后面会需要输入想要链接主机的密码
(1)进入home目录 cd ~ 或者直接cd
ll -a 进入.ssh
(2)生成公钥和私钥 ssh-keygen -t rsa
(3)将公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104
(4)无密登的文件代表的含义
~/.ssh/known_hosts :记录ssh访问过计算机的公钥(public key)
id_rsa :生成的私钥
id_rsa.pub :生成的公钥
authorized_keys :存放授权过得无秘登录服务器公钥
3.编写集群分发脚本xsync将配置的文件分发到其他的机器上面
4.配置集群
hadoop102
NameNode DataNode NodeManager
hadoop103
ResourceManager DataNode NodeManager
hadoop104
SecondaryNameNode DataNode NodeManager
(2)配置文件
core-site.xml
fs.defaultFS
hdfs://hadoop102:9000
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
hdfs-site.xml
dfs.replication
3
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>
slaves
hadoop102
hadoop103
hadoop104
yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
yarn-site.xml
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
mapred-site.xml
mapreduce.framework.name
yarn
4. 在集群上发布文件到其他机器
(1)如果集群是第一次启动,需要格式化namenode
bin/hdfs namenode -format
启动HDFS sbin/start-dfs.sh
启动yarn sbin/start-yarn.sh
注意:Namenode和ResourceManger如果不是同一台机器,不能在NameNode上启动 yarn,应该在ResouceManager所在的机器上启动yarn。