hadoop的HDFS

最新推荐文章于 2024-07-15 19:00:06 发布

My_Dream_Go

最新推荐文章于 2024-07-15 19:00:06 发布

阅读量82

点赞数

分类专栏： hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoshuo87/article/details/84540697

版权

hadoop 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

Hadoop的HDFS

之前刚搭建好了Linux上的hadoop平台，因为暂时不能组成集群，就去深入了解了下hadoop。

首先要说下的就是hadoop的三中分布模式，单机，伪分布，集群分布，单机，顾名思义，就是只有一台机子来开启进程，这个没什么好说的一般只能用来熟悉下hadoop操作，集群分布才是真正意义上的分布模式，由一个Namenode（在2.20版本或以上可以有几个Namenode）和许多的节点，就是Datenode（也可以理解为一台计算机或者服务器）来组成。

Namenode的作用就像一个老板一样，在里面存储了所有Datenode的信息，当一个客户端发来一个任务的时候，有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理，这就要说到hadoop处理数据的HDFS，即分布式存储系统，或者说是主从系统。（Master/slaves）

这个是HDFS处理数据的分解图，首先一个数据会被分成许多的blocks，block的默认值

为64M。然后将blocks分配给不同的节点，然后每个数据块都有副本备份，这是防止运

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。

这个叫做冗余副本策略。

心跳机制：指的是

nNamenode周期性从datanode接收心跳信号和块报告

nNamenode根据块报告验证元数据

n没有按时发送心跳的datanode会被标记为宕机，不会再给它任何I/O请求

n如果datanode失效造成副本数量下降，并且低于预先设置的阈值，namenode会检测出这些数据块，并在合适的时机进行重新复制

Hadoop的HDFS

之前刚搭建好了Linux上的hadoop平台，因为暂时不能组成集群，就去深入了解了下hadoop。

首先要说下的就是hadoop的三中分布模式，单机，伪分布，集群分布，单机，顾名思义，就是只有一台机子来开启进程，这个没什么好说的一般只能用来熟悉下hadoop操作，集群分布才是真正意义上的分布模式，由一个Namenode（在2.20版本或以上可以有几个Namenode）和许多的节点，就是Datenode（也可以理解为一台计算机或者服务器）来组成。

Namenode的作用就像一个老板一样，在里面存储了所有Datenode的信息，当一个客户端发来一个任务的时候，有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理，这就要说到hadoop处理数据的HDFS，即分布式存储系统，或者说是主从系统。（Master/slaves）

这个是HDFS处理数据的分解图，首先一个数据会被分成许多的blocks，block的默认值

为64M。然后将blocks分配给不同的节点，然后每个数据块都有副本备份，这是防止运

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。

这个叫做冗余副本策略。

心跳机制：指的是

nNamenode周期性从datanode接收心跳信号和块报告

nNamenode根据块报告验证元数据

n没有按时发送心跳的datanode会被标记为宕机，不会再给它任何I/O请求

n如果datanode失效造成副本数量下降，并且低于预先设置的阈值，namenode会检测出这些数据块，并在合适的时机进行重新复制

总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能，数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多，以后再补充

Hadoop的HDFS

之前刚搭建好了Linux上的hadoop平台，因为暂时不能组成集群，就去深入了解了下hadoop。

首先要说下的就是hadoop的三中分布模式，单机，伪分布，集群分布，单机，顾名思义，就是只有一台机子来开启进程，这个没什么好说的一般只能用来熟悉下hadoop操作，集群分布才是真正意义上的分布模式，由一个Namenode（在2.20版本或以上可以有几个Namenode）和许多的节点，就是Datenode（也可以理解为一台计算机或者服务器）来组成。

Namenode的作用就像一个老板一样，在里面存储了所有Datenode的信息，当一个客户端发来一个任务的时候，有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理，这就要说到hadoop处理数据的HDFS，即分布式存储系统，或者说是主从系统。（Master/slaves）

这个是HDFS处理数据的分解图，首先一个数据会被分成许多的blocks，block的默认值

为64M。然后将blocks分配给不同的节点，然后每个数据块都有副本备份，这是防止运

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。

这个叫做冗余副本策略。

心跳机制：指的是

nNamenode周期性从datanode接收心跳信号和块报告

nNamenode根据块报告验证元数据

n没有按时发送心跳的datanode会被标记为宕机，不会再给它任何I/O请求

n如果datanode失效造成副本数量下降，并且低于预先设置的阈值，namenode会检测出这些数据块，并在合适的时机进行重新复制

安全模式：指的是

nNamenode启动时会先经过一个“安全模式”阶段

n安全模式阶段不会产生数据写

n在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的

n在一定比例（可设置）的数据块被确定为“安全”后，再过若干时间，安全模式结束

n当检测到副本数不足的数据块时，该块会被复制直到达到最小副本数

当然HDFS还不只这些，还有许多比如机架策略，回收站，校验和，元数据保护等但

这些概念我觉得暂时我们还用不到，说了还会让人感到云里雾里，就不多介绍了。总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能，数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多，以后再补充

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop的HDFS

Hadoop的HDFS之前刚搭建好了Linux上的hadoop平台，因为暂时不能组成集群，就去深入了解了下hadoop。首先要说下的就是hadoop的三中分布模式，单机，伪分布，集群分布，单机，顾名思义，就是只有一台机子来开启进程，这个没什么好说的一般只能用来熟悉下hadoop操作，集群分布才是真正意义上的分布模式，由一个Namenode（在2.20版本或以上可以有几个Namenode...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。