Hadoop源码剖析--HDFS的数据存储

本文深入探讨了Hadoop HDFS的内存存储原理,包括LAZY_PERSIST策略,以及数据如何从内存异步持久化到磁盘。此外,文章还详细介绍了HDFS的异构存储,如RAM_DISK、SSD和ARCHIVE等类型,以及如何配置和使用这些存储策略。
摘要由CSDN通过智能技术生成

一、HDFS内存存储原理

HDFS的数据存储包括两块:(1)HDFS内存存储;(2)HDFS异构存储。

HDFS内存存储是一种十分特殊的存储方式,将会对集群数据的读写带来不小的性能提升,而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。

HDFS的LAZY_PERSIST内存存储策略用的是下面的这种方法,

其中第4步写数据到内存中,第6步异步地将数据写到磁盘,前面几步是如何设置StorageType的操作,在下文中会具体提到。所以异步存储的大体步骤可以归纳如下:

  1. 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略。
  2. 客户端进程向NameNode发起创建/写文件的请求。
  3. 客户端请求到具体的DataNode后DataNode会把这些数据块写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。

LAZY_PERSIST名称的源由就是数据不是马上落盘,而是懒惰的、延时地进行处理。

那么什么叫做虚拟内存盘呢?在Linux中,的确有将内存模拟为一块盘的技术,叫虚拟内存盘。这是一种模拟的盘,实际数据都是存放在内存中的。因此我们将机器内存利用起来,作为一块独立的虚拟盘供DataNode使用了。

二、HDFS内存存储流程分析

    要想让文件数据存储到内存中,我们就需要设置一个存储策略,就是上面提到的LAZY_PERSIST,而不是默认的存储策略:StoragePolicy.DEFAULT,默认的存储策略是DISK类型。设置存储策略有以下3种方法:

  1. 通过命令行的方式,调用如下命令:

 

hdfs storagepolicies –setStoragePolicy –path <path> -policy LAZY_PERSIST

 

  1. 第二种方法是调用对应的程序方法,比如调用暴露在外部的create文件方法,但是得带上参数CreateFlag.LAZY_PERSIST。
  2. 还有一种方法是通过FileSystem的setStorageP
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值