hadoop的HDFS

HadoopHDFS

之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop

首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。

Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves



 

 

这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocksblock的默认值

 

64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运

 

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量

 

这个叫做冗余副本策略

 

心跳机制 指的是

 

nNamenode周期性从datanode接收心跳信号和块报告 

nNamenode根据块报告验证元数据 

n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求 

n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制 

HadoopHDFS

之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop

首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。

Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves

 

这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocksblock的默认值

 

64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运

 

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量

 

这个叫做冗余副本策略

 

心跳机制 指的是

 

nNamenode周期性从datanode接收心跳信号和块报告 

nNamenode根据块报告验证元数据 

n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求 

n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制 

   总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能,数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多,以后再补充

 

      HadoopHDFS

之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop

首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。

Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves

 

这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocksblock的默认值

 

64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运

 

行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量

 

这个叫做冗余副本策略

 

心跳机制 指的是

 

nNamenode周期性从datanode接收心跳信号和块报告 

nNamenode根据块报告验证元数据 

n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求 

n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制 

   

安全模式:指的是

 

nNamenode启动时会先经过一个安全模式阶段 

n安全模式阶段不会产生数据写 

n在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是安全的 

n在一定比例(可设置)的数据块被确定为安全后,再过若干时间,安全模式结束 

n当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数 

      

当然HDFS还不只这些,还有许多比如机架策略,回收站,校验和,元数据保护等但

这些概念我觉得暂时我们还用不到,说了还会让人感到云里雾里,就不多介绍了。总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能,数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多,以后再补充

 

      

 

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值