Hadoop-HDFS

最新推荐文章于 2024-09-21 21:27:42 发布

SuperWang1993

最新推荐文章于 2024-09-21 21:27:42 发布

阅读量384

点赞数

分类专栏：大数据文章标签： hadoop hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hangdianfengzhizi/article/details/49276377

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

所谓HDFS（Hadoop Distributed File System），是一种分布式文件管理系统，通过允许文件在不同电脑之间分享。这种文件系统比较适合大文件的存储。HDFS具有通透性，从程序和上层开发人员看来，就像是访问本地文件一样。HDFS在设计的时候考虑到了容错性，每一份文件在不同的电脑上默认存在3个副本，这样在有些电脑故障的时候，仍然可以正常使用整个系统。

HDFS包括Client，NameNode，DateNode。NameNode是文件系统的管理节点，

它记录着DateNode的分配情况（Secondary NameNode和NameNode记录相同的内容，

当NameNode故障时，Secondary NameNode会从standby状态切换到active状态，保证NameNode正常工作）。DateNode是存储数据的节点，文件以block的形式存储，每个block大小默认为128M。

简单的数据读取过程：

当client读取HDFS中的数据时，首先调用FileSystem的open方法，

使用RPC（Remote Procedure Call）通信协议从NameNode中获得数据所在block的locations，

新建一个FSDataInputStream对象。

这个对象被封装进DFSDataInputStream对象，该对象找到距离client最近的DateNode的位置，

调用read方法从DateNode的block中读取数据，

读取结束后，中断连接并指向下一个DateNode，如果DateNode发生异常，会记录异常DateNode，

跳过该节点的读取，从对应的副本中读取数据。并关闭InputStream。

简单的数据存储过程：

当client上传数据时，首先数据在本地缓存，

当数据大小达到1个block的时候，请求NameNode分配一个block，

NameNode会把分配的地址告诉client，然后client直接与DateNode通信，

将数据写入到相应的block中。

HDFS的常见操作

#hadoop fs -ls /  查看HDFS根目录
#hadoop fs -mkdir /test 在根目录创建一个目录test

#hadoop fs -put ./test.txt /test   上传

#hadoop fs -get /test/test.txt       下载

#hadoop fs -rm /test1/test.txt       删除

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。