Hadoop学习笔记[1]-HDFS基本知识和读写原理

kinglinch

已于 2022-02-04 00:51:53 修改

阅读量840

点赞数

分类专栏：大数据个人感悟文章标签：大数据 hadoop hdfs big data

于 2022-02-03 11:01:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014716398/article/details/122773664

版权

本文详细介绍了Hadoop的HDFS，包括HDFS的基本架构，如存储模型、副本策略；HDFS的读写流程，如写数据的pipeline机制、读数据的就近获取原则；以及HDFS的高可用（HA）解决方案，重点讨论了NameNode的HA和数据同步策略。

摘要由CSDN通过智能技术生成

Hadoop学习笔记[1]-HDFS基本知识和读写原理

大数据领域的技术基石主要来源于谷歌的三篇论文GFS、MapReduce和BigTable，分别是文件系统、计算框架和数据库，本文所说的HDFS对应其中的GFS，先抛出一个小问题，在HDFS出现之前，市面上就已经存在各种各样的分布式文件系统，那么为什么Hadoop之父还要搞一个HDFS？

1、HDFS基本架构

1-1 存储模型

1)、文件线性按照字节切割成块，具有offset和块ID【数据被切割在不同的块的时候怎么办？】
2)、不同文件之间的块大小可以不一样(默认是128M，不同版本不同，和硬件有关)
3)、一个文件除了最后一个block块，其余块大小一致
4)、block的大小根据硬件的IO特性调整
5)、block会被分散在集群的不同节点存储，具有location
6)、block具有副本，没有主从的概念，副本不能出现在同一节点
7)、副本是满足可靠性和性能的关键
8)、文件上传时可以指定block大小和副本数，上传后只能修改副本数
9)、不支持修改数据，允许追加数据(Hive底层用的是hdfs存储，所以对修改操作支持很差，因为修改数据之后会导致hdfs文件中某个块的大小不一致，导致后续所有的块的偏移量都出现错误，需要将文件重新存储一次，所以修改操作=重新全量写文件到HDFS)

1-2 架构设计描述

1)、主从架构
2)、由一个NameNode和一些DataNode组成
3)、NameNode负责存储和管理文件的元数据，并维护一个层次型的目录树

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

kinglinch CSDN认证博客专家 CSDN认证企业博客

码龄11年

28: 原创

15万+: 周排名

120万+: 总排名

3万+: 访问

: 等级

360: 积分

8: 粉丝

11: 获赞

8: 评论

46: 收藏

私信

关注

热门文章

分类专栏

最新评论

经典排序算法[4]-最小和问题
qq_44863031: (R-p2+1)*data[p1] 是什么意思？
Netty源码分析专题[2]-消息队列MpscQueue分析
success112: 这篇文章很有参考价值，为理解MPSC打开了新的视角
Netty源码分析专题[2]-消息队列MpscQueue分析
success112: 总体上楼主对于JUMP位置的理解，虽然不是JUMP真实意图。但也从另一面提供了，如果是简单数组+链表结构中，确实可以解决，扩容后数组前部空间浪费问题。但是忽略了当前buffer消费空位利用问题。
Netty源码分析专题[2]-消息队列MpscQueue分析
success112: 楼主这里的MPSC是普通数组+链表，前面消费了，也不会重新放，而是只看limit，超了就扩容。这样自然浪费空间。新增一位放JUMP，那存储的只能是跳出时的index，消费者每次都要从倒数第二位查一下索引，和当前消费索引比较，相同再跳转，极大的浪费了效率。这种结构的根本做不了MPSC。消费者严重失速。环形链表解决空间浪费问题，JUMP直接在数组作为跳转flag，根本不需要去查找比较。
Netty源码分析专题[2]-消息队列MpscQueue分析
success112: JUMP的出现就是为了提醒消费者已经扩容了，应该去新的buffer找数据；MPSC是环形数组，如果一个buffer中有消费后的空位，不需要扩容，直接填充到空位上，这样更新plimit=cindex+buffersize。所以一个buffer中任何位置都可能是最终扩容前需要跳转的地方，如果不标记JUMP，消费者是不知道从哪里开始到新buffer。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。