一,HDFS的设计
HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop分布式文件系统);
HDFS干什么:以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统;
HDFS缺点:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件;
二,HDFS的特点
主从模式:采用去中心化管理模式,高容错;
低成本:使用廉价机器就可以提供存储;
就近原则:在数据附近执行程序要比将数据转移到程序所在的位置之后再执行效率要高,大大降低系统IO,“移动计算要比移动数据便宜”;
可移植性:HDFS可以实现不同平台之间的移植;
三,HDFS的组成
HDFS既然是主从架构,就需要有主节点进行文件系统元数据管理,也就是NameNode ;从节点也就是负责实际数据存储,也就是DataNode。
一个HDFS集群有且只有一个NameNode,但允许有许多DataNode ,主节点NameNode会负责管理,其他从节点数据节点负责存储。
四,使用linux快速入门
1.访问hadoop官网,下载已发布的版本包,这里选择2.7.6的版本
2.使用WinSCP工具,将本地下载的tar上传至linux环境
3.登录账户,解压tar包,命令如下:tar -zxvf hadoop-2.7.6.tar.gz / home / hadoop / app /,完成后如下图。
4.配置环境变量$ HADOOP_HOME,$ HADOOP_CONF_DIR,并生效
5.导出至$ PATH,命令如下:
$ echo export PATH=\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin:\$PATH
$ echo export PATH=\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin:\$PATH >> ~/.bashrc
$ whereis hadoop
$ source ~/.bashrc
6.配置HDFS文件
6.1。 核心的site.xml
点击[i],进入编辑,添加配置,这里可参考官方提供文件core-default.xml,配置默认的URL
6.2 hdfs-site.xml
点击[i],进入编辑,添加配置,这里可参考官方提供文件hdfs-default.xml,配置1.默认块,2.namenode,3.datanode
6.3配置 slaves
点击[i],进入编辑,添加配置,这里直接配置主机映射名hadoop001
6.4关闭防火墙
## 查看防火墙状态
systemctl status firewalld
## 关闭防火墙
systemctl stop firewalld
6.5第一次启动须将namenode格式化 hdfs namenode -format
6.6启动HDFS start-dfs.sh
未完,待续