HDFS1.0

最新推荐文章于 2022-01-11 20:14:52 发布

bq1027

最新推荐文章于 2022-01-11 20:14:52 发布

阅读量267

点赞数 2

分类专栏：大数据 hdfs 文章标签： hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lb2469335362/article/details/80585254

版权

大数据同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

 
 1、本质 

 
 HDFS(Hadoop Distributed File System) 是一种适合运行在通用文件上的分布式文件系统 

 
 架构图： 

 
 2、特点 

存储并管理PB数据
处理非结构化数据
高度容错
write-once-read-many存取模式（无数据一致性问题）

 
 不适合做 

存储小文件（不建议）
大量随机读（不建议）
需要对文件进行修改（不支持）
多用户写入（不支持）

 
 3、组成部分 

NameNode ：主节点，只允许有一个
SecondaryNameNode：检查点节点，助手节点
DataNode：从节点，可以有多个

 
 NameNode  

作用
1. 管理着文件系统命名空间

- 维护着文件系统树中的所有文件和目录
在内存中存储元数据
- NameNode 保存源信息的种类有
  - 文件名目录名和它们之间的层级关系
  - 文件目录的所有者及其权限
  - 每个文件块的名及文件由哪些块组成
元数据保存在内存中
- NameNode 元信息并不包含每个块的位置信息
保存文件、block、datanode之间的映射关系

单点问题
1. 全Hadoop系统只有一个NameNode
两种解决方案
1. 将hadoop元数据写到本地同时，在实施同步到一个远程挂载的网络文件系统
2. 运行一个secondaryNameNode （定时更新 fsimage,edits 文件重启时namenode加载最新信息 -当然也会有一定延迟）

 
 SecondaryNameNode 

作用
1. 元信息持久化到磁盘
  1. 存放元信息的文件是fsimage
  2. 存放对元信息操作的文件是edits
2. 定时到NameNode上获取最新edit logs 并更新到fsimage(SecondaryNameNode 自己的fsimage)
3. 一旦有了新的fsimage会拷贝到NameNode中，下次NameNode重启时减少重启时间

 
 DataNode 

作用
1. 负责存储数据块，负责为系统客户端提供数据块的读写服务
2. 根据NameNode的指示进行，创建，删除，复制等操作
3. 心跳机制，定期报告文件块列表信息
4. DataNode之间进行通信，块的副本处理
block
1. Hdfs读写的基本单位，默认64M，磁盘块512B
2. 块增大，可以减少寻址时间，文件传输时间
3. 块过大，会导致整体任务数据过小，降低任务处理速度

 
 三个策略 

机架感知策略

  第一个副本：放在客户端相同的节点上，（如果客户端是集群外的一台机器，则随机算节点，系统会调算太忙太满的节点） 

  第二个副本：放在不同的机架上 

  第三个副本：放在与第二个节点相同机架但不同节点上 

distance(/D1/R1/H1,/D1/R1/H1)=0 相同的datanode
distance(/D1/R1/H1,/D1/R1/H3)=2 同一rack下的不同datanode
distance(/D1/R1/H1,/D1/R2/H5)=2 同一IDC下的不同datanode
distance(/D1/R1/H1,/D2/R3/H6)=2 不同IDC下的不同datanode

数据完整性校验
1. 不希望在存储和处理数据时丢失或损坏任何数据
2. HDFS 会对写入的数据计算校验和，并在读取数据时验证校验和
3. 两种检验方法：
  1. – 校验和 • 检测损坏数据的常用方法是在第一次进行系统时计算数据的校验和，在通道传输过程中，如果新生成的校验和不完全匹配原始的校验和，那么数据就会被认为是被损坏的。
  2. – 数据块检测程序DataBlockScanner • 在DataNode节点上开启一个后台线程，来定期验证存储在它上所有块，这个是防止物理介质出现损减情况而造成的数据损坏。
容错可靠性措施
1. 一个名字节点和多个数据节点 • 数据复制（冗余机制）
2. 存放的位置（机架感知策略）
3. 故障检测
  1. 数据节点
    1. 心跳包（检测是否宕机）
    2. 快报告（安全模式下检测）
    3. 数据完整性检测（校验和比较）
  2. 名字节点（日志文件，镜像文件）
4. 空间回收机制 – Trash目录

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS1.0

1、本质HDFS(Hadoop Distributed File System) 是一种适合运行在通用文件上的分布式文件系统2、特点存储并管理PB数据处理非结构化数据高度容错write-once-read-many存取模式（无数据一致性问题）不适合做存储小文件（不建议）大量随机读（不建议）需要对文件进行修改（不支持）多用户写入（不支持）3、组成部分NameNode ：主节点，只允许有一个Seco...
复制链接

扫一扫

专栏目录

bq1027 CSDN认证博客专家 CSDN认证企业博客

码龄9年

1: 原创

92万+: 周排名

188万+: 总排名

267: 访问

: 等级

2: 积分

0: 粉丝

2: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

HDFS1.0 267

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。