HDFS简介

最新推荐文章于 2024-04-29 17:08:37 发布

瓜不田

最新推荐文章于 2024-04-29 17:08:37 发布

阅读量347

点赞数

分类专栏： BigData

本文链接：https://blog.csdn.net/Jerseywwwwei/article/details/96731833

版权

19 篇文章 0 订阅

订阅专栏

Hadoop-HDFS

文件线性切割成块(Block)
偏移量 offset (考虑byte,中文的情况)，偏移量起到定位的作用
单一文件block大小一致(最后一个可以不一样)，文件与文件可以不一致
block可以设置副本数(不同的副本散落在不同的server上，为了数据安全)，副本无序分散在不同节点中，但是副本数不要超过节点数量，一般为3
文件上传可以设置Block大小和副本数（资源不够开辟的进程），hadoop中block默认值为128M，最小1M，副本数量可以自定义，如果这个block有很多进程运行，该block副本数应该多设置
已上传的文件Block副本数可以调整，大小不变
只支持一次写入多次读取，一旦写入，不能改变block大小，大小变了，其他和其相关联的block索引也会发生变化，同一时刻只有一个写入者
可以append追加数据，新的数据会添加在block的末尾分块内

文件元数据MetaData，文件数据：元数据，数据本身
（主）NameNode（只有一个）节点保存文件元数据：单节点 posix metadata size offset 每批文件的映射（存储的位置）维护存放在集群中的block文件的元数据信息block数量，大小，偏移量
（从）DataNode节点保存文件block数据：多节点，维护管理自己的节点之上的块文件
DataNode与NameNode之间保持心跳，DataNode要主动向NameNode上传block列表（原因：理论上来说DataNode会最先获知节点失效的信息）
HdfsClient与DataNode交互元数据信息（cs）有利于数据的存与取，NameNode根据client的需求或者文件的大小，将数据切割存储到不同的DataNode上。只告诉具体地址，不带着去存或取，不然NameNode负载过大
DataNode利用服务器本地文件系统存储数据块

颜色一样的表示为副本

HDFS client 与NameNode交互之后，会与DataNode进行交互

存储50GB的数据

先将文件进行切割，并生成每个副本存放的节点列表，有NameNode进行维护

NameNode的metadata信息在启动后会加载到内存
metadata存储到磁盘文件名为"fsimage"（磁盘镜像快照）（时点备份）做一个序列化与反序列化操作，避免版本不兼容，block的位置信息不会保存到fsimage，这种方法写的时候慢，但是恢复的时候特别快。fsimage一般是定时完成。
edits记录对metadata的操作日志，每来一条l指令，就将信息存储到日志log中，但是恢复起来会特别慢（比如存了十年的数据），这种方法写的时候快，但是恢复起来特别慢。
在系统格式化后会产生第一个fsimage文件，hadoop启动时选去读取fsimage文件，并产生一个edits文件，二者合一产生一个新的fsimage，之后指令会写到edits中，edits会急速扩展，在达到一定程度之后会与fsimage合并。

他不是NN的备份（但是可以做备份），他的主要工作是帮助NN合并editslog，减少NN启动时间。
SNN执行合并时机
- 根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒
- 根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

本地磁盘目录存储数据（Block），文件形式
同时存储Block的元数据信息文件，元数据与本地block产生关联（MD5文件），在下载之前，先将MD5上传到NameNode进行验证（MD5解码操作），避免磁盘坏道下载坏文件
启动DN时会向NN汇报block信息（是一种主动行为）
通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN

Client
- 和NN获取一部分Block副本位置列表
- 线性和DN获取Block，最终合并为一个文件
- 在Block副本列表中安距离择优选用
- MD5验证数据完整性

关注