如今大数据时代,动辄就是几十上百PB的数据量,每日有会大量的新增数据。
HDFS 存储整体的增长情况如何?或许还可以监控 NameNode 的 Summary 来获取。但这只是粗粒度的数据,很难在其中探查出可用于优化的信息。
我们会想知道某个目录的一些具体信息,比如:
- 数据量是多少?
- 增长趋势如何?
- 小文件数量如何?
- 访问情况如何?
- 是否长时间无人访问,可以删除?
- 访问频率低但仍需长时间保存,可以通过冷存储降低存储成本?
对 HDFS 进行监控、治理离不开这些数据的支持,那么这些数据又该如何获取呢?
答案就是,构建 HDFS元数据仓库(元仓)
HDFS元仓三剑客
HDFS元数据仓库?那么这个数仓的数据源是什么呢
建设HDFS元仓需要三份数据,分别是:
- FsImage
- HDFS Audit Log
- Hive Meta