初步认识HDFS的原理及架构

最新推荐文章于 2020-11-28 03:06:56 发布

Chungchinkei

最新推荐文章于 2020-11-28 03:06:56 发布

阅读量181

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39315740/article/details/97955575

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.HDFS介绍

在现代的企业环境中，数据存储主要存在两个问题：

存储的数据量大，单机往往无法存储大量数据；
存储不够安全，节点不可用时数据容易丢失。

分布式文件系统就是为了解决以上两个问题而诞生的，而 HDFS(Hadoop Distributed File System) 就是Hadoop的分布式文件系统具体实现。可以理解为，Hadoop是对大量数据进行分布式处理的系统框架，而HDFS是Hadoop中的一个部件，但不是Hadoop所必需的。

2.HDFS的核心概念

2.1 Blocks

数据在传输或者存储的过程中都是以数据块为单位，每个块作为独立的存储单元。

Blocks的大小
在不同版本的Haddoop中，数据块的大小不太一致。在Hadoop 1.x中数据块的大小是64M，在Hadoop 2.x中数据块的大小为128M。
以200M的数据为例，如果使用Hadoop 2.x以后的版本，则会切分成128M和72M进行存储。如果数据大小不到128M，会按实际的大小进行传输，但是占用的数据块依然是128M。

Blocks的冗余度
同时还要遵循数据块冗余度的要求，HDFS默认的数据块冗余度是3，也就是默认一个数据块要保存3份。这就一定程度上，解决了上面说的节点不可用时数据丢失的问题。
具体的存储过程是：

第一步将数据块从客户端上传到服务端(其中一个DataNode)；
第二步是将这个数据块水平复制到其他两个DataNode，这步过程跟客户端没有关系。

2.2 NameNode

维护HDFS文件系统，是HDFS的master节点。
接受客户端的请求：上传文件、下载文件、创建目录等等

2.3 SecondaryNameNode

待补充

2.4 DataNode

数据以Blocks的形式储存在DataNode，其根据NameNode的指令对数据进行读写。

参考资料

深入理解HDFS：Hadoop分布式文件系统
 技术分享丨HDFS 入门
 5分钟深入浅出 HDFS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Chungchinkei CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

32万+: 周排名

116万+: 总排名

4万+: 访问

: 等级

1128: 积分

15: 粉丝

20: 获赞

16: 评论

98: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇
深度学习 1篇
大数据 10篇
Linux 5篇
常用算法 2篇
剑指Offer 48篇
LeetCode 25篇
Python 1篇
数据挖掘

最新评论

CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
Nidalee_: 我的hive能启动能建库建表就报错我疯了
Spark的jupyter notebook开发环境搭建及pyspark的使用
lmw0320: 有几点不明之处，恳请指点下： 1. 远程linux服务器已经安装好了hadoop和spark, 但是没有安装python。只是本地的终端安装了python和jupyter，可以吧？ 2. 本地的终端连接远程的spark，需要在本地终端安装好pyspark吧？那本地是否也要安装spark和hadoop及JDK呢？？这点一直理不清楚。。
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
偶白: 大哥，你的路径里面local都能拼错吗
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
Chungchinkei: 这个跟完全二叉树没有关系，主要判断的是遍历的过程是不是先增后减的。如果是先增后减（搜索树大小性质），则index必然会等于size；如果遍历中有多个增减的过程，则证明该树不是搜索树。
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
番茄大人: 不好意思啊，有点没看懂,二叉搜索树不是完全二叉树，请问为什么if index != size: return False 成立呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。