基于FsImage和AuditLog的HDFS元仓建设 - (1)数据源篇

如今大数据时代,动辄就是几十上百PB的数据量,每日有会大量的新增数据。

HDFS 存储整体的增长情况如何?或许还可以监控 NameNode 的 Summary 来获取。但这只是粗粒度的数据,很难在其中探查出可用于优化的信息。

在这里插入图片描述

我们会想知道某个目录的一些具体信息,比如:

  • 数据量是多少?
  • 增长趋势如何?
  • 小文件数量如何?
  • 访问情况如何?
  • 是否长时间无人访问,可以删除?
  • 访问频率低但仍需长时间保存,可以通过冷存储降低存储成本?

对 HDFS 进行监控、治理离不开这些数据的支持,那么这些数据又该如何获取呢?

答案就是,构建 HDFS元数据仓库(元仓)

HDFS元仓三剑客

HDFS元数据仓库?那么这个数仓的数据源是什么呢

建设HDFS元仓需要三份数据,分别是:

  • FsImage
  • HDFS Audit Log
  • Hive Meta
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值