虚拟机准备
三台虚拟机(1台作为master节点,另外2台作为slave节点),虚拟机系统是centos7.5,并对虚拟机做如下的操作:
修改IP、DNS、hostname、hosts
- 使用 vi /etc/sysconfig/network-scripts/ifcfg-网卡名 修改网络环境,需要重启网络服务才生效:systemctl restart network
- 使用vi /etc/resolv.conf 修改DNS
- 使用 vi /etc/hostname 修改主机名
- 修改hosts文件 vi /etc/hosts
关闭防火墙
- 使用 systemctl stop firwalld.service 关闭防火墙
- 使用 systemctl disabled firewalld.service 关闭防火墙开机启动
- 查看防火墙的状态: systemctl status firwalld.service (当显示为inactive说明防火墙关闭)
- 关闭内核防火墙
setenforce 0
然后:vi /etc/selinux/config
SELINUX=disabled
建立SSH互信
- 使用 ssh-keygen -t rsa 生成公钥和私钥
- 把3台机器的公钥id_rsa.pub都写入到authorized_keys 文件中,如果没有authorized_keys 文件,创建该文件并设置权限为600
ssh-copy-id -i id_rsa.pub -p 22 username@hostname - 检查authorized_keys文件的权限是否为600, 文件夹.ssh是否是700
- 使用ssh 计算机名就可以访问其他的机器了
安装JDK
- 下载并解压缩JDK
- 配置环境变量:vi ~/.bashrc
添加: export JAVA_HOME=Java_path
export JRE_HOME=…
export CLASSPATH=…
export PATH=…
- 使环境变量生效:source ~/.bashrc
- 检查java是否安装成功: java -version
安装Hadoop
--hadoop的版本是2.6.5
- 下载并解压缩Hadoop
- 配置Hadoop环境变量:vi ~/.bashrc
- 环境变量生效:source ~/.bashrc
- 配置hadoop.env.sh文件(运行Hadoop脚本中使用的环境变量的配置)
如果没有其他的需求,只要添加JAVA_HOME就可以
tip:如果要分离配置文件和安装文件就可以添加HADOOP_CONF_DIR和HADOOP_LOG_DIR - 配置yarn.env.sh文件(Yarn的环境变量的配置文件)
一般情况下只要添加JAVA_HOME就可以
也可以修改YARN_LOG_DIR等 - 配置slaves文件(slave节点的配置文件)
- 配置core-site.xml文件(Hadoop的核心配置文件)
- 配置hdfs-site.xml(Hadoop守护进程的配置项)
- 配置mapred-site.xml
- 配置yarn-site.xml文件
- 创建需要的文件夹
Hadoop集群启动及检查
- 格式化集群: hadoop namenode -formate
- 启动集群: start-dfs.sh start-yarn.sh
- 检查集群状态:
使用jps查看节点的进程
使用hadoop fs -ls / 查看hdfs文件目录
使用hadoop fs -put source_file hdfs_url
使用hadoop fs -get hdfs_url path
Hadoop集群关闭
./stop-all.sh