distcp解决HDFS部分Datanode空间占用率高的问题

1.确定要distcp的目录

Hadoop集群一般是逐步扩容的, 对于老的静态数据就会集中存储在老的Datanode上,导致老的Datanode的空间占用率很高。
找出陈旧的静态数据目录使用distcp命令拷贝到新目录是一种“ 安全 ”的做法。
找出陈旧的静态数据目录的标准:
目录创建时间和里面内容的最后修改时间;
业务方确认,discp中间避免导入;
大小适中,尽量在一个时间窗口(1-7天)可以结束;

2.这里选择如下路径

3.开始distcp

su - hdfs
nohup hadoop distcp hdfs://getui-bi-storage/data_result/app hdfs://getui-bi-storage/data_result/app_new &

4.distcp监控

在yarn的任务列表可以查看:
MR任务具体执行情况:

5.distcp stop方法

方式一:CDH页面
方式二:命令行
yarn application -list找出applicationid
yarn application -kill application_1507729982008_9645
即可。

6.distcp结束后数据校验

6.1 比较目录大小

6.2 读取一个文件

hadoop fs -copyToLocal /data_result/app_new/actived/20151231/part-r-00188.gz /tmp
gunzip part-r-00188.gz
more part-r-00188

6.3 检验文件的权限和属主

7.性能分析

移动数据:63.8T 191.5T
耗时: 39hrs, 13mins, 43sec
移动数据速度(GB/h): 1.6T * 3 = 4.8T

balancer每小时移动数据200GB左右,distcp 比balancer快20倍左右。

8.删除废弃数据

hadoop fs -mv hdfs://getui-bi-storage/data_result/app hdfs://getui-bi-storage/data_result/app_old    # 修改原来目录的文件名
hadoop fs -mv hdfs://getui-bi-storage/data_result/app_new hdfs://getui-bi-storage/data_result/app  # distcp之后的目录替换原来的目录
hadoop fs -rm -R hdfs://getui-bi-storage/data_result/app_old      # 删除老的文件目录


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HDFS(分布式文件系统)Datanode密度存储机型的探索尝试是为了提存储效率和降低成本。在传统的数据存储,每个服务器都有自己的本地硬盘,这导致了大量的硬盘空间浪费和不必要的成本。在密度存储机型,多个Datanode可以共享共同的存储设备。 密度存储机型使用了更大容量的硬盘,充分利用了硬盘的存储空间,使得每个服务器可以存储更多的数据。而且通过合理的数据管理和存储策略,可以实现数据的效存储和读取。例如,采用副本机制和数据块切分技术,将数据分布在多个Datanode上,可以提数据的安全性和容灾性,并且可以并行读取数据,提数据的读取速度。 密度存储机型还可以减少服务器的数量和维护成本。相比于传统的存储方式,密度存储机型可以在较少的服务器上存储更多的数据,减少了机房空间用和耗电量的消耗。同时,减少了服务器的数量,降低了维护和运维的成本。 然而,密度存储机型也存在一些挑战和限制。首先,硬盘密度的提可能会导致硬盘故障的风险增加,需要采取相应的容错和备份措施。其次,密度存储机型对服务器的处理能力和带宽要求较,需要具备足够的计算资源和网络条件。另外,由于密度存储机型的存储空间巨大,数据的管理和维护也变得更加复杂和困难。 总的来说,HDFS Datanode密度存储机型的探索尝试是为了提存储效率和成本效益。通过充分利用硬盘存储空间,减少服务器数量和维护成本,可以更好地足大规模数据存储和处理的需求。然而,在应用还需综合考虑硬盘故障、计算资源和数据管理等方面的问题,以实现效稳定的存储环境。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值