1.基础环境搭建
- 配置网络:首先设置每台电脑的静态ip地址,然后设置好每台主机的主机名,在每台机器上都添加上所有主机的别名和ip地址(没有直接使用ip地址是因为直接写ip地址会写死配置文件灵活性不高)
- 配置运行环境(JDK):下载安装JDK,并且设置好环境JDK的环境变量,如果是命令行安装的可以直接which Java然后找到环境变量的路径。并且在path中添加这个环境变量
- 关闭防火墙(这个视情况而定,有的需要关闭有的不需要,如果没有关闭可能别的机器无法访问)
- 设置NTA同步集群的时间:这个必须做!
- 最后配置集群之间的ssh免密。
2.安装HADOOP并且写好配置文件
- 下载hadoop并且安装到一台主机上即可,然后把hadoop配置环境变量中去。并且在path中添加这个环境变量。
- 在hadoop-env.sh配置Java_Home,因为分布式需要这个路径。
- 在NameNode主机上面写hadoop的配置文件:core-site.xml、 hdfs-site.xml、slaves文件
- core-site.xml配置NameNode的相关信息和NameNode文件的存储路径
- hdfs配置secondaryNameNode的信息和DataNode的文件存储路径
- slaves中写DataNode的节点。
- 写好一台主机的文件之后把这台主机上面的hadoop通过scp命令分发到集群的其他电脑上面,然后分别在相应的电脑上面配置hadoop的环境变量。
3.启动hadoop
- 如果是一台才配好的机器那么就需要进行一次format初始化。命令hdfs namenode -format
- 然后使用start-dfs.sh启动即可
- 使用stop-dfs.sh就可以关闭hadoop集群