1,上传hadoop安装包,解压后配置环境变量
export HADOOP_HOME=/opt/app/hadoop-2.8.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
2,修改配置文件 hadoop安装目录/etc/hadoop/
1) 修改hadoop-env.sh
2) 修改core-site.xml
指定hadoop的默认文件系统为:hdfs
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://linux01:9000</value>
</property>
</configuration>
3) 修改hdfs-site.xml
指定hdfs的namenode节点为哪台机器
指定namenode软件存储元数据的本地目录
指定datanode软件存放文件块的本地目录
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/top/hdpdata/name/</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hdpdata/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>linux02:50090</value>
</property>
</configuration>
3,拷贝整个hadoop安装目录到其他机器
scp -r /opt/app/hadoop-2.8.5 linux02:/opt/app/
4,初始化nameNode元数据目录
要在linux01上执行hadoop的一个命令来初始化namenode的元数据存储目录
hadoop namenode -format
作用:
- 创建一个全新的元数据存储目录
- 生成记录元数据的文件fsimage
- 生成集群的相关标识:如:集群id——clusterID
5,配置集群启动
vi /opt/app/hadoop-2.8.5/etc/hadoop/slaves
配置对应的需要启动dataNode的机器
注意:先配置linux01到集群中所有机器(包含自己)的免密登陆
6,集群启动
启动:start-dfs.sh
停止:stop-dfs.sh
启动完后,jps查看一下namenode的进程是否存在
web端口:50070
访问地址:http://linux01:50070
7,单独启动节点:
nameNode:
hadoop-daemon.sh start namenode
dataNode:
hadoop-daemon.sh start datanode
8,客户端操作命令
上传:
hdfs dfs -put a.txt /
下载:
hdfs dfs -get /a.txt ./
查看:
hdfs dfs -cat /a.txt
创建文件:
hdfs dfs -touchz /b.txt
移动:
hdfs dfs -mv /b.txt /test/
删除:
hdfs dfs -rm -r -f /test
创建文件夹:
hdfs dfs -mkdir /test
查看目录:
hdfs dfs -ls /
修改权限:
sudo -u hdfs hdfs dfs -chmod -R 777 /user/spark
查看目录大小
hdfs dfs -du -h /xxx
删除命令后清空回收站:
hdfs dfs -rm -r /user/root/.Trash
与linux命令大致相同:
不同的地方:1,创建文件命令 touchz;2,多个参数后“-”隔开,如rm -r -f