HDFS简介与常用API

最新推荐文章于 2024-05-22 12:20:48 发布

正橙橙橙橙

最新推荐文章于 2024-05-22 12:20:48 发布

阅读量1.2k

点赞数

分类专栏： Hadoop入门文章标签： hadoop hdfs java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chengzheng119/article/details/121009941

版权

HDFS简介

HDFS是一个文件系统（Hadoop Document File System），通过目录树来定位文件。其次，它是分布式的。

HDFS适用于：一次写入，多次读出的场景。

HDFS通过多种方式，实现了高容错性、可靠性、适合处理大数据

HDFS缺点：

1.不适合低延时的数据访问。

2.无法高效的对大量小文件进行存储

（占用过多NameNode的内存用于存储文件目录和块信息）

3.不支持并发写入，文件随机修改。（比较适用Append，追加数据）

HDFS架构：

NameNode（nn）:作为主管。

管理HDFS的名称空间
配置副本策略
管理数据块的映射
处理客户端请求

DataNode（dn）：作为小弟

储存实际的数据块
进行数据块的读写操作

Client：客户端

切分文件，文件上传到HDFS时，Client将其切分成Block，再进行上传。
与NN交互，获取文件的位置信息。
与DN交互，读写数据
管理HDFS
访问HDFS，对其CRUD

SecondaryNameNode（2nn）：秘书+备用但是2nn并不是时时刻刻保持着备用状态，当nn宕机时，2nn不是立即替换NameNode进行服务的。

辅助nn，分担工作了，定期合并Fsimage和Edits
辅助恢复nn（当nn宕机）

HDFS文件块大小。在Hadoop2.x/3.x中默认是128M。那么为什么？

因为在集群中，寻址的时间大概是10ms，而当寻址时间是传输时间的1%时，状态最佳。

此时传输数据的时间大约为1s。而目前硬盘的刷新速度，若是固态，我们可以把block设置为256M，若是一般硬盘，则为128M。（1s刷一个block，即设置block的大小取决于硬盘的传输速度）。

如果HDFS设置的block大小太小，会提高寻址时间。若太大，处理该块数据会太慢。

HDFS的Shell操作：

hadoop fs 具体命令 hdfs dfs 具体命令

[root@Hadoop-1 hadoop-3.1.3]$ bin/hadoop fs

        [-appendToFil

最低0.47元/天解锁文章

正橙橙橙橙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS简介与常用API

HDFS简介 HDFS是一个文件系统（Hadoop Document File System），通过目录树来定位文件。其次，它是分布式的。HDFS适用于：一次写入，多次读出的场景。HDFS通过多种方式，实现了高容错性、可靠性、适合处理大数据HDFS缺点： 1.不适合低延时的数据访问。 2.无法高效的对大量小文件进行存储（占用过多NameNode的内存用于存储文件目录...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。