三节点Hadoop集群环境搭建

本文讲述如何在CentOS7下安装Hadoop三节点的集群,请提前安装好CentOS操作系统,安装步骤可以参考手把手教你VMware安装CentOS
安装的三台机器ip和主机名分别为

192.168.1.100		node01
192.168.1.110		node02
192.168.1.120		node03

现在node01上操作好后克隆至其他2台

接下来开始正式安装,为了之后开发调试方便,先关闭防火墙

关闭防火墙,selinux

#关闭防火墙
systemctl stop firewalld 
#防火墙不在启动
systemctl disable firewalld
#查看防火墙状态
systemctl status firewalld

在这里插入图片描述
进入selinux配置文件,将SELINUX修改为disabled

vim /etc/selinux/config

SELINUX=disabled

建立映射节点

修改host,将其他主机ip 主机名写入host配置文件

vim /etc/hosts
192.168.1.100		node01
192.168.1.110		node02
192.168.1.120		node03

写入后hosts配置文件内容如下
在这里插入图片描述

三台机器同步时间

三台机器执行以下命令定时同步阿里云服务器时间

 yum -y install ntpdate
 crontab -e 
 */1 * * * * /usr/sbin/ntpdate time1.aliyun.com

创建hadoop用户组和hadoop用户

# 创建用户组hadoop
groupadd hadoop
# 创建用户hadoop并添加到hadoop用户组中
useradd -g hadoop hadoop
# 使用id命令查看hadoop用户组和hadoop用户创建是否成功
id hadoop
# 设置hadoop用户密码为hadoop
passwd hadoop
# 进入用户权限配置文件
visudo
# 给hadoop用户添加所有权限
root    ALL=(ALL)       ALL
hadoop  ALL=(ALL)	    ALL 

在这里插入图片描述
执行visudo进入用户权限配置文件,给hadoop用户添加所有权限
在这里插入图片描述

上传并解压 Hadoop,JDK安装文件

切换到hadoop用户下操作
su - hadoop

进入hadoop用户的home目录
cd /home/hadoop

创建soft目录和install目录,分别用来存储压缩包和解压后的文件

mkdir -p /home/hadoop/soft
mkdir -p /home/hadoop/install

建立好文件夹后检查目录权限是否属于hadoop,如果不属于执行chown -R hadoop:hadoop /home/hadoop/将文件夹权限更改为hadoop用户

将下载好的jdk和hadoop安装包上传到soft目录并解压到install目录
在这里插入图片描述

配置JDK,Hadoop环境变量

使用root用户执行vim /etc/profile 写入如下内容

export JAVA_HOME=/home/hadoop/install/jdk1.8.0_141
export HADOOP_HOME=/home/hadoop/install/hadoop-2.6.0-cdh5.14.2
export
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存退出
执行source /etc/profile使环境变量立即生效
检查一下是否配置好

#验证java
java -version 
#验证hadoop
hadoop version 

虚拟机克隆

将此时node01的修改保存,关闭虚拟机
右键当前虚拟机-管理-克隆 进行虚拟机克隆,
克隆好后分别修改网络配置和主机名

hostnamectl set-hostname node01/02
vim /etc/sysconfig/network-scripts/ifcfg-ens33

免密登录设置

hadoop用户下分别在node1,2,3,执行ssh-keygen -t rsa命令生成公钥
可以检查/home/hadoop/.ssh下是否有公钥和私钥文件

三台机器都执行完后,再次执行ssh-copy-id node1将三台机器的公钥全部copy到node1上
此时可以检查node1下.ssh文件夹下的authorized_keys文件是否有node2和3的公钥内容

在node01机器上执行如下操作

cd /home/hadoop/.ssh/
scp authorized_keys node02:$PWD #将node01的授权文件拷贝到node02
scp authorized_keys node03:$PWD #将node01的授权文件拷贝到node03
# “:PWD”的意思是:拷贝目标文件位置和node01的位置一致。

三台机器关机重启

三台机器在root用户下执行以下命令,实现关机重启
init 6

验证免密登录

在node01机器上,切换到hadoop用户下执行ssh node02,不需要输入密码

修改hadoop用户的公钥和私钥的权限

切换到hadoop用户下执行如下操作

su - hadoop
source .bash_profile
cd /home/hadoop/
chmod -R 755 .ssh/
cd .ssh/
 chmod 644 *
 chmod 600 id_rsa
 chmod 600 id_rsa.pub 
 #把hadoop的公钥添加到本机认证文件当中,如果没有添加启动集群时需要输入密码才能启动,这里需要重点注意下
 cat id_rsa.pub >> authorized_keys 

配置hadoop-env.sh

来到hadoop安装目录

cd /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/
vim hadoop-env.sh 

找到export JAVA_HOME 修改为 export JAVA_HOME=/home/hadoop/install/jdk1.8.0_141
填写正确的jdk目录
如果不是在hadoop用户下执行,需要执行chown -R hadoop:hadoop /home/hadoop

配置core-site.xml

cd /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/
vim core-site.xml
复制以下内容到配置文件中

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://node1:8020</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas</value>
	</property>
	<!--  缓冲区大小,实际工作中根据服务器性能动态调整 -->
	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>
<property>
     <name>fs.trash.interval</name>
     <value>10080</value>
     <description>检查点被删除后的分钟数。 如果为零,垃圾桶功能将被禁用。 
     该选项可以在服务器和客户端上配置。 如果垃圾箱被禁用服务器端,则检查客户端配置。 
     如果在服务器端启用垃圾箱,则会使用服务器上配置的值,并忽略客户端配置值。</description>
</property>

<property>
     <name>fs.trash.checkpoint.interval</name>
     <value>0</value>
     <description>垃圾检查点之间的分钟数。 应该小于或等于fs.trash.interval。 
     如果为零,则将该值设置为fs.trash.interval的值。 每次检查指针运行时,
     它都会从当前创建一个新的检查点,并删除比fs.trash.interval更早创建的检查点。</description>
</property>
</configuration>

配置hdfs-site.xml

vim hdfs-site.xml
复制以下文件到配置文件中

<configuration>
	<!-- NameNode存储元数据信息的路径,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割   --> 
	<!--   集群动态上下线 
	<property>
		<name>dfs.hosts</name>
		<value>/home/hadoop/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/accept_host</value>
	</property>
	
	<property>
		<name>dfs.hosts.exclude</name>
		<value>/home/hadoop/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/deny_host</value>
	</property>
	 -->
	 
	 <property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>node1:50090</value>
	</property>

	<property>
		<name>dfs.namenode.http-address</name>
		<value>node1:50070</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/namenodeDatas</value>
	</property>
	<!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/datanodeDatas</value>
	</property>
	
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/nn/edits</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/snn/name</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/nn/snn/edits</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>
	<property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>
</configuration>

配置mapred-site.xml

在hadoop用户下操作
默认没有mapred-site.xml文件,这里需要从模板中复制一份出来进行修改配置
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<!--指定运行mapreduce的环境是yarn -->
<configuration>
   <property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>node1:10020</value>
	</property>

	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>node1:19888</value>
	</property>
</configuration>

配置yarn-site.xml

vim yarn-site.xml

<configuration>
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>node1</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>

	
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>


	<property>
		 <name>yarn.log.server.url</name>
		 <value>http://node1:19888/jobhistory/logs</value>
	</property>

	<!--多长时间聚合删除一次日志 此处-->
	<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>2592000</value><!--30 day-->
	</property>
	<!--时间在几秒钟内保留用户日志。只适用于如果日志聚合是禁用的-->
	<property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>604800</value><!--7 day-->
	</property>
	<!--指定文件压缩类型用于压缩汇总日志-->
	<property>
        <name>yarn.nodemanager.log-aggregation.compression-type</name>
        <value>gz</value>
	</property>
	<!-- nodemanager本地文件存储目录-->
	<property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/yarn/local</value>
	</property>
	<!-- resourceManager  保存最大的任务完成个数 -->
	<property>
        <name>yarn.resourcemanager.max-completed-applications</name>
        <value>1000</value>
	</property>

</configuration>

编辑slaves

此文件用于配置集群有多少个数据节点,我们把node2,node3作为数据节点,node1作为集群管理节点.
vi slaves
#将localhost这一行删除掉
node01
node02
node03

创建文件存放目录

node01机器上面创建以下目录

#在hadoop用户下操作
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/namenodeDatas
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/datanodeDatas
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/nn/edits
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/snn/name
mkdir -p /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/dfs/nn/snn/edits

远程复制hadoop到集群各个机器中

进入install/hadoop-2.6.0-cdh5.14.2/share/目录下删除doc用户文档(比较大),如果没有删除下面进行scp复制的时候时间会很长
cd install/hadoop-2.6.0-cdh5.14.2/share/
rm -rf doc/

cd /home/hadoop
scp -r install node2.test.com: P W D s c p − r i n s t a l l n o d e 3. t e s t . c o m : PWD scp -r install node3.test.com: PWDscprinstallnode3.test.com:PWD

分发全局环境变量配置文件
scp /etc/profile node2.test.com:/etc/profile
scp /etc/profile node3.test.com:/etc/profile

使得node01上的环境变量生效
source /etc/profile

检查hadoop环境变量配置是否成功.

hadoop version
显示hadoop的版本为cdh版本,说明环境变量配置成功

使集群所有机器环境变量生效

在node02,node03的root用户家目录下使环境变量生效

node02节点如下操作
source /etc/profile

hadoop version
显示hadoop的版本为cdh版本,说明环境变量配置成功

修改hadoop安装目录的权限

node01,node02,node03安装目录的权限

分别在三个节点下操作

修改目录所属用户和组为hadoop:hadoop
[root@node01 ~]# chown -R hadoop:hadoop /kkb
[root@node01 ~]#

#2.修改目录所属用户和组的权限值为755
[root@node01 ~]# chmod -R 755 /kkb
[root@node01 ~]#

格式化hadoop

**注意:下面的命令只能在node01节点执行,并且执行用户为hadoop !!

su - hadoop
hdfs namenode -format #格式化

#查看日志 无 ERROR 日志消息,即成功
在这里插入图片描述

启动集群

cd ~ #回到用户目录

#启动集群
start-all.sh

jps #查看当前进程

在这里插入图片描述

验证Hadoop集群启动是否成功

在浏览器地址栏输入:http://192.168.1.100:50070

在浏览器地址栏中输入http://192.168.1.100:50070/dfshealth.html#tab-overview查看namenode的web界面.

#命令在node01中执行
cd /
hdfs dfs -ls /
hdfs dfs -mkdir /test #创建测试文件夹

在这里插入图片描述

#hadoop用户下
cd ~
vim a.txt
#输入内容:
a b c d e

hdfs dfs -put a.txt /test #将文件上传到hadoop目录中

#用hadoop工具,进行词频统计,输出目录到/test/output(等待):
hadoop jar /home/hadoop/install/hadoop-2.6.0-cdh5.14.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar wordcount /test/a.txt /test/output
#查看统计结果:
hdfs dfs -text /test/output/part-r-00000

遇到权限不够
#在root用户下
#1.修改目录所属用户和组为hadoop:hadoop
[root@node01 ~]# chown -R hadoop:hadoop /kkb
[root@node01 ~]#

#2.修改目录所属用户和组的权限值为755
[root@node01 ~]# chmod -R 755 /kkb
[root@node01 ~]#

运行mapreduce程序

mapreduce程序(行话程为词频统计程序(中文名),英文名:wordcount),就是统计一个文件中每一个单词出现的次数,也是我们学习大数据技术最基础,最简单的程序,入门必须要会要懂的第一个程序,其地位和java,php,c#,javascript等编程语言的第一个入门程序HelloWorld(在控制台打印“hello world!”等字样)程序一样,尤为重要,不同的是它们是单机应用程序,我们接下来要运行的程序(wordcount)是一个分布式运行的程序,是在一个大数据集群中运行的程序。**wordcount程序能够正常的运行成功,输入结果,意味着我们的大数据环境正确的安装和配置成功。**好,简单的先介绍到这里,接下来让我们爽一把吧。

1.使用hdfs dfs -ls / 命令浏览hdfs文件系统,集群刚开始搭建好,由于没有任何目录所以什么都不显示.

hdfs dfs -ls /
hdfs dfs -mkdir /test

在此使用hdfs dfs -ls 发现我们刚才创建的test目录
hdfs dfs -ls /test

4.使用touch命令在linux本地目录创建一个words文件
touch words

文件中输入如下内容
i love you
are you ok

6.将创建的本地words文件上传到hdfs的test目录下
hdfs dfs -put words /test

#7.查看上传的文件是否成功
hdfs dfs -ls -r /test
Found 1 items
-rw-r–r-- 3 hadoop supergroup 23 2019-06-30 17:28 /test/words
#/test/words 是hdfs上的文件存储路径 /test/output是mapreduce程序的输出路径,这个输出路径是不能已经存在的路径,mapreduce程序运行的过程中会自动创建输出路径,数据路径存在的话会报错,这里需要同学注意下

hadoop jar /kkb/install/hadoop-2.6.0-cdh5.14.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar wordcount /test/words /test/output

停止集群

stop-all.sh

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值