Hadoop集群安装
*由于自己在部署Hadoop集群学习的道路上也碰到一些问题,特意以博客的方式给需要的朋友一点实质性的萤火。
整个集群安装主要以以下几个步骤呈现:
- Hadoop集群知识的相关了解
- 集群部署所需要的软件
- 详细的步骤以及中间穿插可能碰到的问题
- 环境的测试
- 总结
Hadoop集群相关了解
Hadoop集群现在已经很普及了,详细的介绍有很多,我这里就不累赘的说明了,未使用的初学者最好还是查看一下相关的材料,了解Hadoop相关的架构及功能,在大数据的领域里,集群是最常使用的分布式环境,后面的文章里也会介绍Spark集群环境。所以要想学会使用,最好先能够学会安装配置集群环境。
集群部署准备工作
Hadoop集群要准备相关的软件及环境,这里通过虚拟机安装来进行展现:
- 环境要求:内存越大越好,现在普遍是8G到16G内存,因为虚拟机要至少安装3个Linux环境来搭建集群。
- 软件版本:
workstation 14 pro 64
Ubuntu16.04 64
Hadoop 2.6.0 64
jdk-8u144-linux-x64.tar.gz
相应的版本软件需要对应找官方网站进行下载
Hadoop集群部署详细步骤
这里跳过虚拟机及Linux环境安装。一般自动安装一台后进行克隆复制另外两台虚拟机,其IP配置是已经设置好的同一个局域网。
在安装Hadoop之前要安装ssh免密登录环境。
- 安装ssh server
sudo apt-get install openssh-server
通过ssh localhost 进行测试发现报错:
ssh:connect to host localhost port 22: Connection refused
解决的办法是:
查看是否安装ssh成功:
Ps -e|grep ssh
启动ssh:
service sshd restart
/etc/init.d/ssh restart
配置文件,允许以 root 用户通过 ssh 登录:sudo vi /etc/ssh/sshd_config
找到:PermitRootLogin prohibit-password
添加:PermitRootLogin yes
重新启动ssh服务:.sudo service ssh restart
上述的ssh登录是需要输入密码的,但在集群配置中不能一直都在输入密码,所以要设置ssh免密登录。具体如下:
ssh-keygen –t rsa –P “” ----生成公钥私钥
其中id_rsa 为私钥,id_rsa.pub为公钥,将公钥追加到authorized_keys中,实现免密登录。
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys