CentOS7下安装Hadoop集群详细过程
在Centos上安装Hadoop大概可分为,虚拟机安装、虚拟机配置、JDK安装、SSH免登陆、Hadoop安装几步
这里主要展示Hadoop的安装过程
下载hadoop 安装包并将其拷贝到 opt目录下的hadoop中,键入命令 tar -xvf hadoop-2.8.5.tar.gz解压文件
1.配置hadoop环境变量
键入命令 sudo vim /etc/profile
按i进入编辑模式 在末尾键入命令
export HADOOP_HOME=/opt/hadoop/hadoop-2.8.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
最终效果如上图,然后保存退出 键入命令 source /etc/profile 是环境变量生效
键入命令 hadoop version 看看环境变量是否配置成功
2.修改haoop配置文件
首先创建以下三个目录
sudo mkdir /opt/hadoop/temp
sudo mkdir /opt/hadoop/name
sudo mkdir /opt/hadoop/data
然后来到hadoop目录下的/etc/hadoop 目录 需要修改一下几个文件,其中标红的文件需要配置JDK路径
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
2.1修改hadoop-env.sh
键入命令 sudo vim hadoop-env.sh
定位到此行将值修改为你的JDK路径
如下
2.2修改yarn-env.sh
同样是对JAVA_HOME进行修改
2.3修改core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/hadoop/temp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
2.4修改hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.web.ugi</name>
<value>supergroup</value>
</property>
</configuration>
2.5 修改mapred-site.xml
目录下 只存在mapred-site.xml.template 文件 键入命令进行重命名
mv mapred-site.xml.template mapred-site.xml
然后键入 命令 sudo vim mapred-site.xml 添加如下内容
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
2.6 修改yarn-site.xml
添加如下内容
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
2.7修改slaves文件
删除localhost 改为从机名
3 拷贝到从机 这里注意 主机从机的 jdk目录和 用户目录要一致
使用scp 命令将整个 hadoop 目录复制给从机
scp -r /opt/hadoop hadoop@slave1:/opt
scp -r /opt/hadoop hadoop@slave2:/opt
这里如果复制不成功 记得要给从机的opt 的其他人赋予x权限
记得配置从机中的Haoop的环境变量
4 Hadoop启动测试
首先进行数据节点格式化 在从机任意目录键入hdfs namenode -format
进行格式化
然后在主机的=进入hadoop的sbin目录,输入 ./start-all.sh 启动hadoop
在数据节点上输入 jps
查看是否启动成功
然后在浏览器输入IP:8080 可以查看节点活动信息,hadoop配置成功