Hadoop的HDFS
之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop。
首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。
Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves)
这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocks,block的默认值
为64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运
行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。
这个叫做冗余副本策略。
心跳机制 :指的是
nNamenode周期性从datanode接收心跳信号和块报告
nNamenode根据块报告验证元数据
n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求
n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制
Hadoop的HDFS
之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop。
首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。
Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves)
这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocks,block的默认值
为64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运
行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。
这个叫做冗余副本策略。
心跳机制 :指的是
nNamenode周期性从datanode接收心跳信号和块报告
nNamenode根据块报告验证元数据
n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求
n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制
总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能,数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多,以后再补充
Hadoop的HDFS
之前刚搭建好了Linux上的hadoop平台,因为暂时不能组成集群,就去深入了解了下hadoop。
首先要说下的就是hadoop的三中分布模式,单机,伪分布,集群分布,单机,顾名思义,就是只有一台机子来开启进程,这个没什么好说的一般只能用来熟悉下hadoop操作,集群分布才是真正意义上的分布模式,由一个Namenode(在2.20版本或以上可以有几个Namenode)和许多的节点,就是Datenode(也可以理解为一台计算机或者服务器)来组成。
Namenode的作用就像一个老板一样,在里面存储了所有Datenode的信息,当一个客户端发来一个任务的时候,有Namenode来分配任务给不同的节点来完成任务。一般来说hadoop完成的任务都是大数据的处理,这就要说到hadoop处理数据的HDFS,即分布式存储系统,或者说是主从系统。(Master/slaves)
这个是HDFS处理数据的分解图,首先一个数据会被分成许多的blocks,block的默认值
为64M。然后将blocks分配给不同的节点,然后每个数据块都有副本备份,这是防止运
行过程中挂掉的话还能继续运行。可以在hdfs-site.xml中设置复制因子指定副本数量。
这个叫做冗余副本策略。
心跳机制 :指的是
nNamenode周期性从datanode接收心跳信号和块报告
nNamenode根据块报告验证元数据
n没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求
n如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新复制
安全模式:指的是
nNamenode启动时会先经过一个“安全模式”阶段
n安全模式阶段不会产生数据写
n在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的
n在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束
n当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数
当然HDFS还不只这些,还有许多比如机架策略,回收站,校验和,元数据保护等但
这些概念我觉得暂时我们还用不到,说了还会让人感到云里雾里,就不多介绍了。总的来说HDFS保证了大数据可以再普通的硬件上分析而不用超级计算机。有了这个使得大数据时代的到来成为可能,数据的处理变的越来越方便。暂时关于HDFS的介绍就写这么多,以后再补充