HDFS Archival Storage

最新推荐文章于 2024-09-17 08:00:00 发布

lipeng_bigdata

最新推荐文章于 2024-09-17 08:00:00 发布

阅读量2k

点赞数 3

分类专栏： HDFS2.6.0源码分析

本文链接：https://blog.csdn.net/lipeng_bigdata/article/details/53374391

版权

HDFS Archival Storage是Hadoop-2.6.0引入的特性，用于将冷数据归档到廉价高密度存储介质上，解耦存储与计算需求。通过标记DataNode存储属性和HDFS路径策略，数据根据策略自动迁移，节省存储资源。测试表明，新创建文件默认存储在[DISK]，已存在的文件存储位置不受影响。

摘要由CSDN通过智能技术生成

一、是什么

随着数据的日益增长，很多数据由热变冷，已经不再或者很少使用，而数据的存储需求越来越大，计算需求则相应增长不大。如何解耦这种急剧增长的存储需求和计算需求？HDFS Archival Storage正好能派上用场。

HDFS Archival Storage是Hadoop-2.6.0新增的一个特性，是Hadoop异构存储中的一部分。它实现了数据按照策略分开存储，解耦存储与计算能力，将部分冷数据归档至拥有廉价高密度存储介质但计算能力不强的机器。

Hadoop-2.6.0起增加了几种存储策略，可以规划某些机器为归档服务器，存储冷数据，存储介质为高密度廉价磁盘，某些机器为热数据服务器，存储热数据，存储介质可以为磁盘，也可以是SSD。存储策略包括如下几种：

 
    
     
        
          public  
          static  
          final  
          String MEMORY_STORAGE_POLICY_NAME =  
          "LAZY_PERSIST" 
          ; 
         
 
          public  
          static  
          final  
          String ALLSSD_STORAGE_POLICY_NAME =  
          "ALL_SSD" 
          ; 
         
 
          public  
          static  
          final  
          String ONESSD_STORAGE_POLICY_NAME =  
          "ONE_SSD" 
          ; 
         
 
          public  
          static  
          final  
          String HOT_STORAGE_POLICY_NAME =  
          "HOT" 
          ; 
         
 
          public  
          static  
          final  
          String WARM_STORAGE_POLICY_NAME =  
          "WARM" 
          ; 
         
 
          public  
          static  
          final  
          String COLD_STORAGE_POLICY_NAME =  
          "COLD" 
          ; 
         

      

     
   

目前，Hadoop-2.6.0支持的为HOT、WARM、COLD三种，热数据全部存储在标记为[DISK]的DataNode存储路径上（未标记的默认为[DISK]），而冷数据全部存储在标记为[ARCHIVE]的DataNode存储路径上，这种节点机器可以是计算能力比较弱但是存储密度高的廉价机器，温数据则介于两者之间，部分副本存储于[DISK]上，而部分副本存储于[ARCHIVE]上。而SSD则是在Hadoop-2.7.0开始支持的一种存储介质。

重启DataNode之后，我们可以标记部分HDFS数据存储路径的存储策略，然后利用hdfs mover工具进行数据的迁移。注意，未标记存储属性的DataNode默认为[DISK]，未标记存储策略的HDFS路径默认为unspecified，新建文件时存储在[DISK]上。

二、怎么做

1、标记DataNode存储属性

修改hdfs-site.xml配置文件中的dfs.datanode.data.dir，在原路径前增加存储属性，如下：

 
          < 
          property 
          > 
         
          < 
          name 
          >dfs.datanode.data.dir</ 
          name 
          >