大数据分布式存储操作
1.搭建集群
角色=进程
搭建集群的模式分为三种:
①伪分布式
在一台服务器上,启动多个进程,分别表示多个角色
②完全分布式
在多台服务器上,每台服务器启动不同角色的进程,使用多台服务器组成HDFS集群
block副本数+自己本身<=DataNode节点数
③高可用的完全分布式
因为namenode有可能会挂掉,所以在这中模式中,会对namenode做一个备份
2.搭建伪分布式
(1) 配置免密登录 node01->node01
① ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
② ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01
(2) 配置JDK
① export JAVA_HOME=/opt/software/jdk/jdk1.8.0_151
② export PATH=$PATH:$JAVA_HOME/bin
(3) 修改hdfs-site.xml配置文件
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node01:50090</value>
</property>
(4) 修改core-site.xml配置文件
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/abc/hadoop/local</value>
</property>
(5) 修改slaves配置文件
修改为node01
(6) 格式化NameNode(创建目录以及文件) hdfs namenode -format
(7) 启动HDFS start-dfs.sh
(8) 操作HDFS文件系统
① 创建目录 hdfs dfs -mkdir -p /user/root
② 上传文件 hdfs dfs -put 如果存储的文件不足128M,那么该是多大就是多大,不会是128M
③ 删除目录 hdfs dfs -rm
④ 查看文件内容 hdfs dfs -cat(但是在实际情况中并不会用这个命令,以为它会直接加载所有的内容)
hdfs dfs -cat | more(常用)