存储在HDFS上的文件，存储机制及数据安全性如何保证。

最新推荐文章于 2024-04-27 06:00:00 发布

haoran_gao

最新推荐文章于 2024-04-27 06:00:00 发布

阅读量7.8k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/haoran_gao/article/details/49798797

版权

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HDFS是一种分布式存储系统，它把大文件分块存储在网络的机器中，它采用主从结构（master/slave). 通过一些后台进程来管理文件的存储：Namenode, Datanode,SecondaryNamenode.

NameNode结构图如下：

NameNode维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个，分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log)，这些信息被Cache在RAM中，当然，这两个文件也会被持久化存储在本地硬盘。Namenode记录着每个文件中各个块所在的数据节点的位置信息，但是他并不持久化存储这些信息，因为这些信息会在系统启动时从数据节点重建。
DataNode介绍
Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。

集群中的每个服务器都运行一个DataNode后台程序，这个后台程序负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时，先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作，然后，客户端直接与这个DataNode服务器上的后台程序进行通信，并且对相关的数据块进行读/写操作。

数据安全性保证

为了保证数据的安全， Hadoop提供了两种方式

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。Hadoop可以通过配置来让Namenode将他的持久化状态文件写到不同的文件系统中。这种写操作是同步并且是原子化的。比较常见的配置是在将持久化状态写到本地硬盘的同时，也写入到一个远程挂载的网络文件系统。

第二种方式是运行一个辅助的Namenode(Secondary Namenode)。事实上Secondary Namenode并不能被用作Namenode它的主要作用是定期的将Namespace镜像与操作日志文件(edit log)合并，以防止操作日志文件(edit log)变得过大。通常，Secondary Namenode 运行在一个单独的物理机上，因为合并操作需要占用大量的CPU时间以及和Namenode相当的内存。辅助Namenode保存着合并后的Namespace镜像的一个备份，万一哪天Namenode宕机了，这个备份就可以用上了。

但是辅助Namenode总是落后于主Namenode，所以在Namenode宕机时，数据丢失是不可避免的。在这种情况下，一般的，要结合第一种方式中提到的远程挂载的网络文件系统(NFS)中的Namenode的元数据文件来使用，把NFS中的Namenode元数据文件，拷贝到辅助Namenode，并把辅助Namenode作为主Namenode来运行。

http://www.aboutyun.com/thread-7778-1-1.html

haoran_gao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
存储在HDFS上的文件，存储机制及数据安全性如何保证。

HDFS是一种分布式存储系统，它把大文件分块存储在网络的机器中，它采用主从结构（master/slave). 通过一些后台进程来管理文件的存储：Namenode, Datanode,SecondaryNamenode.NameNode结构图如下： NameNode维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件
复制链接

扫一扫