hive 自定义元数据表_hive元数据表结构-阿里云开发者社区

在debug hive的问题的时候,经常需要分析hive元数据的表结构。

这里简单地说下常用的几个表的结构:

dbs 存储了database的一些信息,id,描述,hdfs中的路径和名称。

tbls 存储了table的一些信息,id,表名等。。其中常用的两个字段是SD_ID和TBL_TYPE,SD_ID后面再说。TBL_TYPE字段 定义了表是外部表(EXTERNAL_TABLE)还是托管表(MANAGED_TABLE)

hive目前的版本是支持view的,view的定义是在tbls表中,TBL_TYPE字段是VIRTUAL_VIEW。

tbls中有另外的两个字段标识了view的sql:

VIEW_EXPANDED_TEXT,VIEW_ORIGINAL_TEXT

其中VIEW_ORIGINAL_TEXT 是创建view时输入的sql,而VIEW_EXPANDED_TEXT是对sql进行规范化之后的结果。

table_params 定义了表的statistics信息和一些表的特性,statistics比如文件数量,分区数量,数据量大小等等,不过目前看来不是很准确,特性比如是否可以drop('PROTECT_MODE'='NO_DROP')等。。

sds 表存储了table到hdfs路径和format,serial等信息,常用的字段是CD_ID和LOCATION,通过tbls的tbl_id字段和sds关联,可以得出表在hdfs中的路径信息和CD_ID

cds表只存储了cd_id字段

columns_v2 表存储了表的column信息,比如字段名称(COLUMN_NAME),字段类型(TYPE_NAME),字段位置(INTEGER_IDX)等

通过tbls和sds的join可以得出表的cd_id,然后再和columns_v2表进行join即可得出表的字段信息,比如上面的表:

与partition相关的常用表:

partitions 表分区相关信息,和tbl_id关联,可以获取分区的SD_ID,然后可以获取分区的hdfs路径和column信息。

partition_params 和table_params信息一样,存储一些statistics相关的信息

partition_key_vals  分区信息,和 partitions的part_id关联

partition_keys 分区键信息,和tbls的tbl_id关联

权限相关的表:

tbl_privs,tbl_col_privs,db_privs,global_privs,roles,role_map 等。

还有剩下的一些表,用得比较少,以后有机会再来看。。

本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1353872,如需转载请自行联系原作者

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值