Hadoop集群搭建

一、安装及配置虚拟机

 1.选择典型或者自定义,一般选择典型即可,如果需要进行更多的详细配置可以选择自定义。

  2.选择想要安装的虚拟机映像位置

 3.设置用户名以及密码

 

4.设置虚拟机名称以及存储位置

 

5.设置磁盘存储方式以及磁盘大小 

 

 6.完成配置点击完成,也可以点击自定义硬件进行详细配置

 

二、Hadoop配置 

1.写主机名、IP、免密登录

注意如果虚拟机有其他用途,通常为了安全会为大数据专门设置一个Hadoop用户然后配置免密登录

在root用户下执行下列操作

添加用户:useradd hadoop

设置密码:passwd hadoop

1.修改主机名
命令:hostnamectl set-hostname [名称],将主机名分别改为node1,node2,node3,也可以自行设置名称。

 

2.设置IP(各节点的IP从主节点依次排序,node1为30,node2则为31,以此类推)
sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33

进入到网络配置文件中。将文件BOOTPROTO改为static,添加IPADDR(处于子网IP范围之间),GATEWAY(与子网IP一致),NETMASK(子网掩码)和DNS1。 配置完成后需要重启网卡(systemctl  restart network)。

 

 

3.主机映射

本地Windows的hosts文件修改  文件存放路径:C:\Windows\System32\drivers\etc

 

修改每台节点的hosts文件

命令为sudo vim /etc/hosts ,依次添加node1,node2,node3

 

 

4.ssh免密登录

 1.命令:ssh-keygen -t rsa -b 4096   然后一路回车到底

在三台虚拟机依次执行

 

2.依次执行 ssh-copy-id node1 、ssh-copy-id node2 、ssh-copy-id node3。执行每一个命令后需要输入yes和id对应虚拟机的密码。 

 

三、JDK安装部署(三台虚拟机都要安装)

JDK安装包链接:https://pan.baidu.com/s/1QxVCRdLcVaqD0kNXCrD3lg 
提取码:1111 
也可自行下载

1.创建一个文件夹 命令: mkdir -p /export/servers

 

 

 2.上传文件,进入刚刚创建的文件夹,输入rz,找到JDK存放路径,选择JDK 

 

3.解压文件 命令:  tar  -zxvf  jdk-8u361-linux-x64.tar.gz  -C  /export/servers 

 

 

 4.配置jdk软连接 命令:ln -s /export/servers/jdk1.8.0_361 /export/servers/jdk 

 

5.配置JAVA_HOME环境变量

更改环境变量:sudo vim /etc/profile

#jdk环境变量
export JAVA_HOME=/export/servers/jdk
export PATH=$PATH:$JAVA_HOME/bin

 

6.生效环境变量,删除原有jdk,构建新的jdk软连接

生效环境变量: source /etc/profile

删除原因jdk: rm -f /usr/bin/java

构建软连接: ln -s /export/servers/jdk/bin/java /usr/bin/java

验证jdk:java -version

                javac -version

 

 

四.关闭防火墙和SElinux

1.关闭防火墙

systemctl stop firewalld

systemctl disable firewalld

 

2.关闭selinux

         selinux,是用以限制用户和程序的相关权限,来确保系统的安全稳定。

命令:sudo vim /etc/sysconfig/selinux

将SELINUX=enforcing修改为SELINUX=disabled

 

 

 五、修改时区并配置自动时间同步
1.安装ntp软件

yum install -y ntp

2.更新时区

删除原有时区:sudo rm -f /etc/localtime

加载新时区:sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

更新时区: ntpdate -u ntp.aliyun.com

 

3.设置开机自启动

systemctl start ntpd

systemctl enable ntpd

 

六、Hadoop安装与部署
 一、Hadoop安装包下载
Hadoop有自己官网(Apache Hadoop),可直接点击链接前往官网下载,或者链接:      链接:https://pan.baidu.com/s/1LFvqn7adVsA9nnoOVGIpdg?pwd=1111 
提取码:1111 

1.进入官方网站

        在网站首页就有Download选项,点击download

2.上传Hadoop安装包(node1进行)

        进入/export/servers目录,输入rz,选择Hadoop下载文件夹进行上传。

 

 3.

解压Hadoop压缩包

命令:tar -zxvf hadoop-3.3.4.tar.gz -C /export/servers 

 

4.构建软连接

命令: cd /export/servers
ln -s /export/servers/hadoop-3.3.4 hadoop

 

 5.修改配置文件

配置 HDFS 集群,我们主要涉及到如下文件的修改:
• workers : 配置从节点( DataNode )有哪些
• hadoop-env.sh : 配置 Hadoop 的相关环境变量
• core-site.xml : Hadoop 核心配置文件
• hdfs-site.xml : HDFS 核心配置文件

上述文件存放在以下目录

(1)workers文件配置
#填充内容如下
node1
node2
node3
 

(2)配置hadoop-env.sh文件
#填充内容如下(在任意空白处填充即可)
export JAVA_HOME=/export/servers/jdk                         
export HADOOP_HOME=/export/servers/hadoop           
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop       
export HADOOP_LOG_DIR=$HADOOP_HOME/logs        

 

(3)配置core-site.xml文件
#填充内容如下(在configuration内填充即可)
<configuration>
    <property>
            <name>fs.defaultFS</name>
            <value>hdfs://node1:8020</value>     
    </property>

    <property>
            <name>io.file.buffer.size</name>
            <value>131072</value>
    </property>
</configuration>

(4)配置hdfs-site.xml文件
#填充内容如下
<configuration>
    <property>
            <name>dfs.datanode.data.dir.perm</name>  #hdfs文件系统默认创建文件权限设置
            <value>700</value>
    </property>
    <property>
            <name>dfs.namenode.name.dir</name>  #NameNode元数据的存储位置
            <value>/data/nn</value>
    </property>
    <property>
            <name>dfs.namenode.hosts</name>  #NameNode运行哪些节点的DataNode连接
            <value>node1,node2,node3</value>
    </property>
    <property>
            <name>dfs.blocksize</name>   #hdfs默认大小256MB
            <value>268435456</value>
    </property>
    <property>
            <name>dfs.namenode.handler.count</name>   #namenode处理的开发线程数
            <value>100</value>
    </property>
    <property>
            <name>dfs.datanode.data.dir</name>  #从节点datanode的数据存储目录
            <value>/data/dn</value>
    </property>
</configuration>    

 

5.准备数据目录

• namenode 数据存放 node1 的 /data/nn
• datanode 数据存放 node1 、 node2 、 node3 的 /data/dn

在node1执行:

mkdir -p /data/nn

mkdir /data/dn

在node2、node3执行:

mkdir -p  /data/dn

6.分发Hadoop文件 
# 在 node1 执行如下命令
cd /export/servers
scp -r hadoop-3.3.4 node2:`pwd`/
scp -r hadoop-3.3.4 node3:`pwd`/

• 在 node2 执行,为 hadoop 配置软链接
ln -s /export/servers/hadoop-3.3.4 /export/servers/hadoop

• 在 node3 执行,为 hadoop 配置软链接
ln -s /export/servers/hadoop-3.3.4 /export/servers/hadoop

7.配置环境变量(三台机器均要配置)

命令:vim /etc/profile 

# 在 /etc/profile 文件底部追加如下内容
export HADOOP_HOME=/export/servers/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

 

 

 生效环境变量:source /etc/profile

8.授权Hadoop用户(设置可以使用Hadoop的用户)

# 以 root 身份,在三台服务器上均执行
chown -R hadoop:hadoop /data
chown -R hadoop:hadoop /export

9.格式化文件系统以及启动Hadoop

前期准备全部完成,现在对整个文件系统执行初始化
# 确保以 hadoop 用户执行
su - 用户名(自己设置的拥有Hadoop集群操作权限的用户)
# 格式化 namenode
hadoop namenode -format
# 一键启动 hdfs 集群
start-dfs.sh
# 一键关闭 hdfs 集群
stop-dfs.sh
# 如果遇到命令未找到的错误,表明环境变量未配置好,可以以绝对路径执行
/export/servers/hadoop/sbin/start-dfs.sh
/export/servers/hadoop/sbin/stop-dfs.sh

 10.验证Hadoop是否配置成功

浏览器打开网址:http://node1:9870,并打开框选选项

 

 

 出现下图则表示Hadoop集群配置完成 

 

部分资源从网上查找,如有侵权请联系作者删除,谢谢

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值