-
- 修改主机名
【操作目的】
在分布式集群中,主机名用于区分不同的节点,并方便节点之间相互访问,因此需要修改主机的主机名。
【操作步骤】
(1)使用hadoop用户登录系统,进入系统的终端命令行,输入以下命令,查看主机名:
[hadoop@localhost ~]$ hostname
localhost.localdomain
可以看到,当前主机的默认主机名为localhost.localdomain。
(2)执行以下命令,设置主机名为centos01:
[hadoop@localhost ~]$ hostname centos01
hostname: you must be root to change the host name
此时提示需要root权限,执行su命令切换root用户:
[hadoop@localhost ~]$ su
密码:
[root@localhost hadoop]#
执行以下命令,重新设置主机名为centos01:
[root@localhost hadoop]# hostname centos01
以上设置只是在当前会话起作用,重启以后设置的主机名就不起作用了。要想完全改变主机名,需要修改hostname文件。执行以下命令,修改hostname文件,将其中的主机名改为centos01:
[root@localhost hadoop]# vi /etc/hostname
(3)重启系统使修改生效。
-
- 配置主机IP映射
【操作目的】
通过修改各节点的主机IP映射,可以方便的通过主机名访问集群中的其它主机。
【操作步骤】
(1)依次启动三台虚拟机,将主机centos02的主机名改为centos02,将主机centos03的主机名改为centos03。
(2)使用ifconfig命令查看三台虚拟机的IP,并将centos02与centos03的IP分别改为固定IP。本例三台主机IP分别为:
192.168.170.133
192.168.170.134
192.168.170.135
(3)在各个节点上分别执行以下命令,修改hosts文件:
sudo vi /etc/hosts
在hosts文件中加入以下内容:
192.168.170.133 centos01
192.168.170.134 centos02
192.168.170.135 centos03
注意:每个节点的hosts文件中都要加入同样的内容,这样可以保证每个节点都可以通过主机名访问到其它节点。
-
- 配置各节点SSH无密钥登录
ssh-copy-id命令可以把本地主机的公钥复制并追加到远程主机的authorized_keys文件中,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限。
(1)分别在三个节点中执行以下命令,生成秘钥文件:
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 生成秘钥文件,会有提示,都按回车就可以
(2)分别在三个节点中执行以下命令,将公钥信息拷贝并追加到对方节点的授权文件authorized_keys中:
ssh-copy-id centos01
ssh-copy-id centos02
ssh-copy-id centos03
最后测试SSH无秘钥登录。
-
- 安装JDK
- 安装JDK
上传安装包jdk-8u101-linux-x64.tar.gz到目录/opt/softwares中,然后进入目录/opt/softwares,解压jdk-8u101-linux-x64.tar.gz到目录/opt/modules中,解压命令如下:
[hadoop@centos01 softwares]$ tar -zxf jdk-8u101-linux-x64.tar.gz -C /opt/modules/
修改文件/etc/profile,配置JDK环境变量:
[hadoop@centos01 softwares]$ sudo vi /etc/profile
在文件末尾加入以下内容:
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
刷新profile文件,使修改生效。
source /etc/profile
执行java -version命令,查看是否能成功输出JDK版本信息,信息如下:
[hadoop@centos01 softwares]$ java -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)
-
- 搭建Hadoop集群
各节点的角色分配如下表:
节点 | 角色 |
centos01 | NameNode SecondaryNameNode DataNode ResourceManager NodeManager |
centos02 | DataNode NodeManager |
centos03 | DataNode NodeManager |
- 上传Hadoop并解压
在centos01节点中,将Hadoop安装文件hadoop-2.8.2.tar.gz上传到/opt/softwares/目录,进入该目录,解压hadoop到/opt/modules/,命令如下:
[hadoop@centos01 ~]$ cd /opt/softwares/
[hadoop@centos01 softwares]$ tar -zxvf hadoop-2.8.2.tar.gz -C /opt/modules/
- 配置Hadoop环境变量
Hadoop所有的配置文件都存在于安装目录下的etc/hadoop中,修改如下配置文件:
hadoop-env.sh
mapred-env.sh
yarn-env.sh
三个文件分别加入JAVA_HOME环境变量,如下:
export JAVA_HOME=/opt/modules/jdk1.8.0_101
- 配置HDFS
(1)修改配置文件core-site.xml,加入以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://centos01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/modules/hadoop-2.8.2/tmp</value>
</property>
</configuration>
参数解析:
fs.defaultFS:HDFS的默认访问路径。
hadoop.tmp.dir:Hadoop临时文件的存放目录,可自定义。
(2)修改配置文件hdfs-site.xml,加入以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property><!--不检查用户权限-->
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/modules/hadoop-2.8.2/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/modules/hadoop-2.8.2/tmp/dfs/data</value>
</property>
</configuration>
参数解析:
dfs.replication:文件在HDFS系统中的副本数。
dfs.namenode.name.dir:HDFS名称节点数据在本地文件系统的存放位置。
dfs.datanode.data.dir:HDFS数据节点数据在本地文件系统的存放位置。
(3)修改slaves文件,配置DataNode节点。slaves文件原本无任何内容,需要将所有DataNode节点的主机名都添加进去,每个主机名占一整行。本例中,DataNode为三个节点:
centos01
centos02
centos03
- 配置YARN
(1)重命名mapred-site.xml.template文件为mapred-site.xml,修改mapred-site.xml文件,添加以下内容,指定以yarn集群方式运行。
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(2)修改yarn-site.xml文件,添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
参数解析:
yarn.nodemanager.aux-services :NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序。
- 拷贝Hadoop安装文件到其它主机
在centos01节点上,将配置好的整个Hadoop安装目录,拷贝到其它节点(centos02与centos03)。命令如下:
[root@centos01 modules]$ scp -r hadoop-2.8.2/ root@centos02:/opt/modules/
[root@centos01 modules]$ scp -r hadoop-2.8.2/ root@centos03:/opt/modules/
- 启动Hadoop
启动Hadoop之前,需要先格式化NameNode。格式化NameNode可以初始化HDFS文件系统的一些目录和文件,在centos01节点上执行以下命令,进行格式化操作:
vim /etc/profile
追加内容:
export HADOOP_HOME=/opt/modules/hadoop-2.8.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
刷新生效
source /etc/profile
然后可以在任意目录下执行以下命令:
hadoop namenode -format
格式化成功后,在centos01节点上执行以下命令,启动Hadoop集群:
start-all.sh
也可以执行start-dfs.sh和start-yarn.sh分别启动HDFS和YARN集群。
- 查看各节点启动进程
集群启动成功后,分别在各个节点上执行jps命令,查看启动的Java进程。可以看到,各节点的Java进程如下:
centos01节点的进程:
[hadoop@centos01 hadoop-2.8.2]$ jps
13524 SecondaryNameNode
13813 NodeManager
13351 DataNode
13208 NameNode
13688 ResourceManager
14091 Jps
centos02节点的进程:
[hadoop@centos02 ~]$ jps
7585 NodeManager
7477 DataNode
7789 Jps
centos03节点的进程:
[hadoop@centos03 ~]$ jps
8308 Jps
8104 NodeManager
7996 DataNode