Hive元数据学习笔记

Hive在MySQL中的元数据信息如下所示:
| BUCKETING_COLS |
| CDS |
| COLUMNS_V2 |
| DATABASE_PARAMS |
| DBS |
| DB_PRIVS |
| FUNCS |
| FUNC_RU |
| GLOBAL_PRIVS |
| IDXS |
| INDEX_PARAMS |
| PARTITIONS |
| PARTITION_KEYS |
| PART_COL_STATS |
| ROLES |
| SDS |
| SD_PARAMS |
| SEQUENCE_TABLE |
| SERDES |
| SERDE_PARAMS |
| SKEWED_COL_NAMES |
| SKEWED_COL_VALUE_LOC_MAP |
| SKEWED_STRING_LIST |
| SKEWED_STRING_LIST_VALUES |
| SKEWED_VALUES |
| SORT_COLS |
| TABLE_PARAMS |
| TAB_COL_STATS |
| TBLS |
| TBL_COL_PRIVS |
| TBL_PRIVS |
| VERSION |
±--------------------------+

VERSION表信息:
±-------±---------------±----------------------------------------+
| VER_ID | SCHEMA_VERSION | VERSION_COMMENT |
±-------±---------------±----------------------------------------+
| 1 | 1.1.0 | Set by MetaStore hostname@ip |
±-------±---------------±----------------------------------------+
字段含义:
SCHEMA_VERSION:hive的版本号
VERSION_COMMENT:
VERSION表中的信息有且只有一条,多一条hive都无法启动

DBS表信息
±------±----------------------±---------------------------------------------------±--------±-----------±-----------+
| DB_ID | DESC | DB_LOCATION_URI | NAME | OWNER_NAME | OWNER_TYPE |
±------±----------------------±---------------------------------------------------±--------±-----------±-----------+
| 1 | Default Hive database | hdfs://hadoop001:8020/user/hive/warehouse | default | public | ROLE |
| 11 | NULL | hdfs://hadoop001:8020/user/hive/warehouse/test.db | test | hadoop | USER |
| 12 | NULL | hdfs://hadoop001:8020/user/hive/warehouse/test1.db | test1 | hadoop | USER |
±------±----------------------±---------------------------------------------------±--------±-----------±-----------+
DB_ID:数据库编号
DESC:数据库描述,可在建库时添加
DB_LOCATION_URI:该库在hdfs上的位置
NAME:数据库名
OWNER_NAME:所属用户的名称
OWNER_TYPE:(不懂。。。)

TBLS表(字段较多,换种显示方式)
*************************** 2. row ***************************
TBL_ID: 13
CREATE_TIME: 1496037612
DB_ID: 1
LAST_ACCESS_TIME: 0
OWNER: hadoop
RETENTION: 0
SD_ID: 13
TBL_NAME: emp
TBL_TYPE: MANAGED_TABLE
VIEW_EXPANDED_TEXT: NULL
VIEW_ORIGINAL_TEXT: NULL

TBL_ID:表的id
CREATE_TIME:UNIX时间戳,创建该表的时间
DB_ID:该表所属的数据库ID
LAST_ACCESS_TIME:字面意思看,上一次访问该表的时间:但我访问了一下,这个字段并没有变化
OWNER:对应在hdfs上所属的用户
RETENTION:(不懂)
SD_ID:
TBL_NAME:表名
TBL_TYPE:表的类型,内部表外部表什么的
VIEW_EXPANDED_TEXT:
VIEW_ORIGINAL_TEXT:

SDS表(通过SD_ID关联TBLS表,里边有表的存储位置等信息)
*************************** 5. row ***************************
SD_ID: 11
CD_ID: 11
INPUT_FORMAT: org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
IS_COMPRESSED:
IS_STOREDASSUBDIRECTORIES:
LOCATION: hdfs://hadoop:8020/user/hive/warehouse/g6_hadoop.db/page_views_orc
NUM_BUCKETS: -1
OUTPUT_FORMAT: org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
SERDE_ID: 11
SD_ID:应该是一个自增长的主键,是TBLS表的外键
CD_ID: 是一个外键,和表中字段相关
INPUT_FORMAT:输入格式,建表
IS_COMPRESSED: 是否压缩了,(无论压缩没压缩,这里都没变化。。。)
IS_STOREDASSUBDIRECTORIES:是否存储为子目录(暂且还不懂什么意思)
LOCATION:该表在hdfs上对应的文件夹
NUM_BUCKETS:
OUTPUT_FORMAT:输出的格式
SERDE_ID:

columns_v2表(里边是各种表的字段信息,通过CD_ID与其他表关联)
*************************** 43. row ***************************
CD_ID: 13
COMMENT: NULL
COLUMN_NAME: city_id
TYPE_NAME: string
INTEGER_IDX: 6

CD_ID:TBLS中也有该字段,表可以通过该字段找到自己的字段信息(猜测)
COMMENT:字段描述,建表时可以自己添加
COLUMN_NAME:字段名称
TYPE_NAME:字段的数据类型
INTEGER_IDX:字段对应索引

PARTITIONS表(里边时各种分区的信息,分区在hdfs上对应一个目录)
PART_ID:16
CREATE_TIME:1552220490
LAST_ACCESS_TIME:0
PART_NAME:day=2016-05-05
SD_ID:47
TBL_ID:36

PART_ID:分区id
CREATE_TIME:分区创建时间。unix时间戳
LAST_ACCESS_TIME:好像全是0
PART_NAME:分区名
SD_ID:与SDS表中相对应
TBL_ID:所在表的id

DBS:DB_ID
TBLS:TBL_ID ,DB_ID, SD_ID
SDS:SD_ID ,CD_ID
columns_v2: CD_ID
PARTITIONS:PART_ID, SD_ID, TBL_ID
待继续补充。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值