1. 系统架构
2. hdfs中有几个组件,都有什么作用?
NameNode:存储文件的元数据,接收来自客户端的读写请求
Datanode:存储文件数据
Seconderynamenode:第二名字节点,定期检查并且合并FSImage系统快照,editlog编辑日志
3. hdfs默认存储3块,每块128M
4. seconderynamenode和namenode之间的关系
1) seconderynamenode引导namenode滚动更新编辑日志文件,并开始将新的内容写入editlog.new
2)seconderynamenode将namenode的FSImage和编辑日志文件复制到本地的检查点目录
3)seconderynamenode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘
5.hdfs的容错机制
副本机制:每一个文件块都会有2-3个副本存放在不同的datanode上
心跳机制:datanode会定时的发送心跳包给namenode,namenode如果没有接收到心跳包,就会认识datanode已经死亡,namenode就会去找到相应的元数据,根据元数据找到其他的datanode上存放的备份数据,拷贝到新机器上
6. hadoop2.x版本的端口号为8020
1.x版本的端口号是9000
7. hdfs核心配置文件和配置内容
1)Hadoop-env.sh 环境变量
2)Core-site.xml 配置端口号和主机名
3) Hdfs-site.xml 配置副本数,namenode和datanode存放文件的路径
4)slaves
8. Hdfs的命令
1)创建目录 hadoop fs -mkdir
2)删除目录 hadoop fs -rmdir
3)列出文件或目录 hadoop fs -ls
4)上传/覆盖文件 hadoop fs -put (-f) 本地文件 上传路径 copyFromLocal
5)下载文件 hadoop fs -get/copyToLocal 文件地址 本地地址
6)查看文件 hadoop fs -cat
7)删除文件 hadoop fs -rm
8)移动文件 hadoop fs -mv