安装HDFS,其实就是准备大量的Linux服务器,安装hadoop软件,然后在不同的机器上启动不同的程序,包括namenode,datanode,客户端。
准备4台Linux服务器,1台用于启动namenode,3台用于启动datanode。
安装步骤:
1:准备4台Linux机器,并做好基础配置
IP地址
Hostname(一律小写+数字)
域名映射/etc/hosts
jdk
关闭防火墙
SSH工具
时间同步
2:上传一个hadoop安装包,并且解压
3:修改配置文件
hdfs-site.xml
核心参数1:namenode在哪台机器上运行
参数名:dfs.namenode.rpc-address
参数值: cts01:9000
核心参数2:namenode存元数据的本地目录
参数名:dfs.namenode.name.dir
参数值:/root/hdpdata/name/
核心参数3:datnaode存文件块的本地目录
参数名:dfs.datanode.data.dir
参数值:/root/hdpdata/data/
辅助参数:secondarynamenode所在的机器
参数名:dfs.namenode.secondary.http-address
参数值:cts02:50090
hadoop-env.sh
4:启动Hadoop
4.1 : 在不同的机器上启动不同的程序
marshal--->namenode
marshal001--->datanode
marshal002--->datanode
marshal003--->datanode
注:集群在第一次启动的时候,namenode的元数据目录需要先初始化生成
4.2 : 在marshal上执行命令hadoop namenode -format
hadoop有自带脚本批量启动集群:
4.3 : 在marshal中修改slaves文件
slaves记录运行datanode的节点,此时在marshal,marshal001,marshal002,marshal003上面都启动了datanode
在marshal上,配好marshal-->marshal001,marshal002,marshal003的免密登陆
然后,在marshal上,敲:
start-dfs.sh 启动集群
stop-dfs.sh 关闭集群
启动成功