1、Linux 系统的安装与学习
1.1 采用的centos7.3的系统,安装的方法:利用U盘在电脑中装双系统,centos安装后,启动界面只能选择linux系统,所以需要修改/etc/grub2/grub.cfg配置文件,修改方法见我之前博客内容。
1.2 安装完成系统后,一定要学习该系统基本的使用方法,这个系统没有windows系统的易用性,多数情况下都是利用shell 终端操作,记住linux常用操作命令是非常有必要的。
1.3 了解linux系统的用户管理、文件管理、文件权限管理等基本知识,文件系统中各文件夹存储的是何种类型的文件(如 根目录下的 usr etc home boot 等文件夹下存放的何种文件)
2、JAVA openJDK文件的安装
根据hadoop官方的要求安装对应hadoop版本的java jdk包、注意JAVA_HOME 环境变量的配置,一般有两种方法:
1是采用全局配置,即配置 /etc/profile 文件、该文件配置成功后,对所有该系统的用户都有效;2是修改指定用户的目录下的.bashrc文件,即/home/用户名/.bashrc文件。修改后利用 source 文件名,让环境变量生效。
3、hadoop完全分布式系统搭建
3.1 下载相应的hadoop文件版本,之间解压于 /usr/local/文件目录下
3.2 配置hadoop文件的环境变量,包括.bashrc 文件和hadoop-env.sh文件修改
3.3 Master (Namenode) Slave1(DataNode)配置、包括ssh免密码、host文件修改、hostsname文件的修改等
3.4 按照完全分布式节点的步骤,修改hadoop的配置文件.*-site.xml(一般是5个文件),修改结束后,将hadoop文件压缩后,传递(scp)到不同的Slaves节点中去
3.5 利用hadoop的脚本文件,格式化namenode,启动dfs,查看集群是否启动成功。
新手安装集群时需要注意的一些问题:
1、安装集群时一定要分清楚是安装的哪一部分内容,以及修改的内容是属于哪一块的东西,例如,安装ssh、修改host文件等属于linux系统的操作;真正对hadoop相关的操作是针对hadoop文件夹里面的内容;切忌不要将linux的操作和hadoop操作混在一起,不知道自己到底改的什么内容。
2、配置同一个集群不用节点的用户名时,一定要设置相同的用户名,相同的密码(貌似密码其实可以不同);其实这个很好理解,对一个集群的搭建和维护,应该是同一个用户帐号完成的,如果namenode和Datanode是在不同的用户名下建立集群,那么很有可能登陆远程DataNode时出现登陆失败的情况。