HDFS
文章平均质量分 79
HDFS
b u g
这个作者很懒,什么都没留下…
展开
-
HDFS2.x新特性
一、 集群间数据拷贝 scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两原创 2021-01-19 18:37:42 · 127 阅读 · 0 评论 -
DataNode
一、DataNode工作机制 一个数据在DataNode上以文件的形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块的校验和,以及时间戳)。 DataNode启动后像NameNode注册,通过后周期性(1小时)的向NameNode上报所有块信息 NameNode与DataNode之间使用心跳进行检测节点是否可用,心跳没每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNo原创 2021-01-19 11:59:39 · 205 阅读 · 0 评论 -
NameNode和SecondaryNameNode
一、NameNode和SecondaryNameNode工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦N原创 2021-01-19 09:58:28 · 380 阅读 · 0 评论 -
HDFS数据流
一、HDFS写数据流程 1.1、刨析文件写入 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已经存在,父目录是否存在。 NameNode返回是否可以上传文件 客户端请求第一个Block上传到那几个DataNode服务器上 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求后会继续调用dn2,然后dn2调用dn3,将这个原创 2021-01-18 13:17:47 · 116 阅读 · 0 评论 -
HDFS的shell操作
基本语法 bin/hadoop fs 具体命令 或者 bin/hdfs dfs 具体命令 dfs是fs的实现类 常用命令: -help:输出这个命令参数 [hadoop100@hadoop104 subdir0]$ hadoop fs -help rm -rm [-f] [-r|-R] [-skipTrash] <src> ... : Delete all files that match the specified file pattern. Equivalent to t原创 2021-01-17 11:28:24 · 123 阅读 · 0 评论 -
HDFS概述
一、 HDFS产生背景 产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读原创 2021-01-17 10:04:09 · 173 阅读 · 0 评论