大数据启蒙-初步认识HDFS

程序员导航123

已于 2022-02-17 23:02:22 修改

阅读量572

点赞数

分类专栏：架构设计文章标签： big data 大数据

于 2022-02-17 22:57:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hu2008123/article/details/122983591

版权

架构设计专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.大数据要了解的概念：

分而治之

并行计算：分布式存储、分布式算法

计算向数据移动

算法效率：空间复杂度和时间复杂度，时间效率和空间效率

数据本地化读取

2.大数据发展简史：

hadoop.apache.org

Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入

2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Cloudera公司在2008年开始提供基于Hadoop的软件和服务。

2016年10月hadoop-2.6.5

2017年12月hadoop-3.0.0

The project includes these modules:

Hadoop Common

Hadoop Distributed

File System (HDFS™) 一致性分布式文件系统，1个主

Hadoop YARN Hadoop

MapReduce Other Hadoop-related projects at Apache include:

Ambari™

Avro™

Cassandra™

Chukwa™

HBase™

Hive™

Mahout™

Pig™

Spark™

Tez™

ZooKeeper™

3.理论知识点

存储模型架构设计角色功能元数据持久化安全模式副本放置策略读写流程安全策略

存储模型：

文件线性按字节切割成块(block)，具有offset，id

文件与文件的block大小可以不一样

一个文件除最后一个block，其他block大小一致

block的大小依据硬件的I/O特性调整

block被分散存放在集群的节点中，具有location Block具有副本(replication)，没有主从概念，

副本不能出现在同一个节点

副本是满足可靠性和性能的关键

文件上传可以指定block大小和副本数，

上传后只能修改副本数一次写入多次读取，不支持修改支持追加数据

角色及是进程

dataNode：
节点集群数量是dataNode数据量,不超过5000台
基于操作系统进程本地磁盘存储block块，以文件的形式存储；
保存bolck校验和数据，保证block的可靠性；
与nameNode保持心跳，汇报block列表状态

nameNode：
只有一个，持久化方案，完全基于内存存储文件的元数据、目录结构、文件block的映射；
需要持久化方案保证数据可靠性；
提供副本放置策略；

客户端：

程序员导航123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。