本文主要是想做一下自己实际搭建集群的记录:如有不正确或者不当的地方,希望各位能指正
一,准备工作:
1.VMware官方下载
2.CentOS7镜像下载
3.jdk8下载
4.Hadoop下载(Source Distribution 是源代码版,你需要自己编译成可执行软件。 Binary Distribution 是可执行版,直接可以拿来用的,他已经给你编译好的版本)
二,VMware安装
这个就不多说了,网上很多教程,自行百度
三,CentOS7虚拟机创建
VMware -》文件 -》新建虚拟机
CentOS7镜像必须要下载好
开始安装或启动虚拟机如果出现黑屏死机的情况
- 打开任务管理器,在进程中先把VMwore进程杀掉
- win + r 打开cmd ,输入msconfig,在服务中禁用带有VMware单词的服务(总共有5个服务,前面勾选款不选)
- 删掉保存虚拟机文件中后缀名为 .lck的文件
- 重启电脑
- 打开任务管理器,详细信息中没有vmware-vmx .exe在运行,就ok了
- 开启VMware服务,在任务管理器的服务中,右键点击,选择打开服务,找到5个代有VMware单词的服务,右键点击,打开属性,把禁用改成手动
- 开启虚拟机,开始安装
如果想要安装有图形界面的,选择软件安装
本人选择的是最小安装,选择完成之后,点击右下角安装
添加root账户密码
至此,静等虚拟机安装完成,选择右下角重启
三,虚拟机环境的配置
使用root账户登录
(1) IP,网络,用户配置
1,win + r 然后ipconfig,查看自己的IP 假如本机IP是196.126.1.1,这个IP是乱写的,看你自己本机的,如果是插网线的,看以太网IPv4,练wifi的就看WLAN的IPv4
2,选择VMware的->编辑->虚拟网络编辑器
3.设置虚拟机的IP,进入centos7机器
vim /etc/sysconfig/network-scripts/ifcfg-ens33 (ens后面可能不一样)
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=1c71c1dc-e4f8-4594-b77e-5e04f6906a31
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.2.10
GATEWAY=192.168.2.2
NETMAK=255.255.255.0
DNS1=8.8.8.8
DNS2=114.114.114.114
4.设置本机的VMnet8
5.关闭防火墙
sudo systemctl stop firewalld.service #关闭防火墙
sudo systemctl disable firewalld.service #禁止防火墙
$sudo vim /usr/sbin/sestatus
#将SELinux status参数设定为关闭状态
SELinux status: disabled
6.修改hostname
hostnamectl set-hostname master
7.添加映射 (为之后克隆节点,搭建集群做准备)
vim /etc/hosts
192.168.2.10 master
192.168.2.11 slaver01
192.168.2.12 slaver02
8.重启网络:
service network restart
9.检测是否成功
ping www.baidu.com
10.添加hadoop账户并分配sudo权限
- #useradd -m hadoop
- #passwd hadoop
- #visudo
- 在该行root ALL=(ALL) ALL下添加hadoop ALL=(ALL) ALL保存后退出,并切换回hadoop用户
- #su hadoop
(2) 环境变量的设置和免密登录
1.在hadoop用户下,创建目录
- cd /opt/
- sudo mkdir softwore module
- sudo rm -rf rh/
- sudo chown hadoop:hadoop module/ softwore/ 将指定文件的拥有者改为指定的用户
2.上传提前下载好的jdk和hadoop到 /opt/softwore
3.解压jdk和hadoop
tar -zxvf jdk-8u141-linux-x64.tar.gz
tar -zxvf hadoop3.0.0.tar
4.解压之后的文件移动到/opt/module目录下,并修改名字
mv jdk1.8.0_141/ /opt/module/jdk1.8
mv hadoop-3.0.0 /opt/module/hadoop3.0.0
5,卸载系统自带的jdk
- rpm -qa | grep java 或 rpm -qa | grep jdk 命令来查询出系统自带的jdk
- rpm -e --nodeps 后面跟系统自带的jdk名 这个命令来删除系统自带的jdk(带python和tzdata不要删)
6.添加jdk和hadoop环境变量
sudo vim /etc/profile
export JAVA_HOME=/opt/module/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/module/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
source /etc/profile
7.测试是否环境变量添加成功
java -version
javac -version
hadoop version
8.虚拟机关机状态下克隆出从节点,修改节点名称Slaver01,Slaver02
9.hadoop用户进入,修改Slaver01和Slaver02的IP,hostname,关闭防火墙,重启网络(前面都有步骤)
sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
service network restart
10.测试时候三个节点之间是否能通信,互相ping一下
11,配置master对slaver01和salver02的免密登陆
- 安装依赖
sudo yum install -y openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel gcc
-
分别在三个节点执行 ssh-keygen -t rsa ,然后一直回车,直到生成公钥和私钥
-
在master上将公钥放入authorized_keys
cd /home/hadoop/.ssh/
cat id_rsa.pub >authorized_keys
- authorized_keys复制到其他节点,中间会有输入密码的过程
scp authorized_keys hadoop@slaver01:/home/hadoop/.ssh/
scp authorized_keys hadoop@slaver02:/home/hadoop/.ssh/
- 分别给三个节点 修改authorized_keys权限
chmod 644 authorized_keys
- 测试时候能免密登录 ssh slaver01 不需要密码即成功
(3) 修改hadoop配置,并启动hadoop
1.在master上操作,修改hadoop配置
2.创建HDFS存储目录
cd /opt/module/hadoop3.0.0/
mkdir hdfs
cd hdfs
mkdir name data tmp
./hdfs/name --存储namenode文件
./hdfs/data --存储数据
./hdfs/tmp --存储临时文件
3.修改hadoop的conf文件
cd /opt/module/hadoop3.0.0/etc/hadoop/
- 修改hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8
- 修改core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop3.0.0/hdfs/tmp</value>
</property>
</configuration>
- 修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/module/hadoop3.0.0/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/opt/module/hadoop3.0.0/hdfs/data</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
- 修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slaver01</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
</configuration>
- 3.x版本修改workers,2.x版本的是slavers和masters
localhost修改为
master
slaver01
slaver02
4.将hodoop3.0.0复制到从节点
cd /opt/module
scp -r hadoop3.0.0/ hadoop@slaver01:/opt/module/
scp -r hadoop3.0.0/ hadoop@slaver02:/opt/module/
5.启动hadoop
hdfs namenode -format #格式化namenode
- 启动hdfs
start-dfs.sh
- 启动yarn
start-yarn.sh
(4) 检测hadoop是否启动成功
1.jps查看各个节点启动的hadoop是否齐全
2.登录localhost:9870
3.登录localhost:8088