本文是笔者初步整理的Hive元数据表,有不准确的地方请轻拍,后续我会补充.
1. Hive 0.11 元数据表汇总
1.1 概览
线上Hive 0.11 metastore包括39个表,可以分为以下几类 :
类别 | 表名 | 主键 | 描述 |
---|---|---|---|
Database相关 | DBS | DB_ID | 所有Hive数据库信息,包括HDFS数据目录、库名、备注等 |
DBS_PARAMS |
DB_ID,PARAM_KEY |
Database的属性信息 |
|
TABLE相关 | TBLS | TBL_ID | 所有Hive基本表信息,包括所属DB_ID,创建者,表名,创建方式等 |
TABLE_PARAMS |
TBL_ID |
表级属性,文件大小,最后一次ddl时间等等 |
|
NUCLEUS_TABLES |
CLASS_NAME |
Hive元数据表和Hive中class类的对应关系(为什么该表是空呢?//todo) |
|
SDS数据存储相关 | SDS | SD_ID | 所有Hive表、表分区所对应的HDFS数据目录和数据格式,包含序列化SERDE_ID |
SD_PARAMS |
SD_ID |
SDS的附加信息 |
|
COLUMN相关 |
CDS |
CD_ID |
只有一个字段CD_ID,记录Hive数据仓库中所有的CD_ID,和COLUMN_V2关联 |
COLUMN_V2 |
CD_ID,COLUMN_NAME |
各hive表字段信息,包括列名,类型 |
|
SORT_COLS |
SD_ID,INTEGER_IDX |
Hive表创建时SORTED BY字段信息(字段名,sort类型,字段序号) |
|
PARTITION相关 |
PARTITION_KEYS |
TBL_ID,PKEY_NAME |
hive分区表所采用的分区键(字段),包含TBL_ID、分区字段名、分区字段序号(INTEGER_IDX) |
PARTITIONS |
PART_ID |
hive表分区信息,包含所属TBL_ID,分区名,如 log_date=2013-04-21 |
|
PARTITION_KEY_VALS |
PART_ID,INTEGER_IDX |
存储PART_ID分区,INTEGER_IDX分区字段的值(PART_KEY_VAL) |
|