最近在做的数据治理项目中有个业务需求是:从hive的元数据库中获取到贴源层(也就是ods层)下所有表的元数据信息,这里大致描述一下实现的过程。
一、前期准备知识: Hive元数据信息对应的MySQL数据库表
Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。Hive的元数据信息在MySQL数据中有57张表:
mysql> show tables;
±--------------------------+
| Tables_in_metastore_spark |
±--------------------------+
| AUX_TABLE |
| BUCKETING_COLS |
| CDS |
| COLUMNS_V2 |
| COMPACTION_QUEUE |
| COMPLETED_COMPACTIONS |
| COMPLETED_TXN_COMPONENTS |
| DATABASE_PARAMS |
| DBS |
| DB_PRIVS |
| DELEGATION_TOKENS |
| FUNCS |
| FUNC_RU |
| GLOBAL_PRIVS |
| HIVE_LOCKS |
| IDXS |
| INDEX_PARAMS |
| KEY_CONSTRAINTS |
| MASTER_KEYS |
| NEXT_COMPACTION_QUEUE_ID |
| NEXT_LOCK_ID |
| NEXT_TXN_ID |
| NOTIFICATION_LOG |
| NOTIFICATION_SEQUENCE |
| NUCLEUS_TABLES |<