大数据技术入门：hdfs（分布式文件存储系统），2024年最新字节跳动算法工程师总结

最新推荐文章于 2024-05-17 11:48:51 发布

2401_84181070

最新推荐文章于 2024-05-17 11:48:51 发布

阅读量868

点赞数 23

分类专栏：程序员文章标签：大数据 hdfs 分布式

本文链接：https://blog.csdn.net/2401_84181070/article/details/137728634

版权

硬件故障：故障的检测和自动快速恢复
数据访问：适合批量处理的一次写入，到处读取，而不是用户交互式的随机读写
大数据集：典型的HDFS文件大小是GB到TB的级别。所以，HDFS被设计成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。不适用大量小文件的存储。

二、HDFS架构

=====================================================================

架构 1.0

在这里插入图片描述

DATANODE：负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块（Block），每个 DataNode存储一部分数据块，这样文件就分布存储在整个 HDFS 服务器集群中。
NameNode：负责整个分布式

关注