一、HDFS内存存储原理
HDFS的数据存储包括两块:(1)HDFS内存存储;(2)HDFS异构存储。
HDFS内存存储是一种十分特殊的存储方式,将会对集群数据的读写带来不小的性能提升,而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。
HDFS的LAZY_PERSIST内存存储策略用的是下面的这种方法,
其中第4步写数据到内存中,第6步异步地将数据写到磁盘,前面几步是如何设置StorageType的操作,在下文中会具体提到。所以异步存储的大体步骤可以归纳如下:
- 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略。
- 客户端进程向NameNode发起创建/写文件的请求。
- 客户端请求到具体的DataNode后DataNode会把这些数据块写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。
LAZY_PERSIST名称的源由就是数据不是马上落盘,而是懒惰的、延时地进行处理。
那么什么叫做虚拟内存盘呢?在Linux中,的确有将内存模拟为一块盘的技术,叫虚拟内存盘。这是一种模拟的盘,实际数据都是存放在内存中的。因此我们将机器内存利用起来,作为一块独立的虚拟盘供DataNode使用了。
二、HDFS内存存储流程分析
要想让文件数据存储到内存中,我们就需要设置一个存储策略,就是上面提到的LAZY_PERSIST,而不是默认的存储策略:StoragePolicy.DEFAULT,默认的存储策略是DISK类型。设置存储策略有以下3种方法:
- 通过命令行的方式,调用如下命令:
hdfs storagepolicies –setStoragePolicy –path <path> -policy LAZY_PERSIST
- 第二种方法是调用对应的程序方法,比如调用暴露在外部的create文件方法,但是得带上参数CreateFlag.LAZY_PERSIST。
- 还有一种方法是通过FileSystem的setStorageP