【Hive】Hive元数据库介绍及信息查看

最新推荐文章于 2024-06-04 15:09:54 发布

无影风Victorz

最新推荐文章于 2024-06-04 15:09:54 发布

阅读量2.1w

点赞数 7

分类专栏：大数据 Hive 文章标签： Hive 元数据

本文链接：https://blog.csdn.net/victorzzzz/article/details/81874674

版权

大数据同时被 2 个专栏收录

39 篇文章 1 订阅

订阅专栏

Hive

18 篇文章 0 订阅

订阅专栏

转载@dabokele

在安装Hive时，需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是，hive表中的数据都是保存的HDFS上，也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性，以及这些属性与HDFS文件对应关系的一个映射。
　　这些映射关系比较常见的一个场景是保存在mysql数据库中。接下来会分析hive安装时的一些配置信息，以及元数据库中主要表的用途。

一 hive配置

　　有关hive的配置都在hive-site.xml文件中。

属性	描述	默认值
hive.metastore.warehouse.dir	指定hive表在hdfs上的存储路径	/user/hive/warehouse
javax.jdo.option.ConnectionURL	配置元数据的连接URL
javax.jdo.option.ConnectionUserName	元数据库连接用户名
javax.jdo.option.ConnectionPassword	元数据库连接密码

比如如下的配置：

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://m000:3306/hive</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hiveuser</value>
  <description>username to use against metastore database</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hiveuser</value>
  <description>password to use against metastore database</description>
</property>

　　在hive中，默认情况下新建的数据库以及表都位于HDFS的hive.metastore.warehouse.dir路径下。如下图分别显示了数据库，表，以及表文件在HDFS上的文件路径
　　这里写图片描述
　　根据javax.jdo.option.ConnectionURL中设置的数据库，以及用户名和密码，hive就可以写入和读取其元数据信息。
　　连接元数据库除了配置URL，username，password之外，还有一种间接的方式。可以在hive客户端A上用hive --service metastore启动一个metastore服务，然后在另外一个hive客户端B的hive-site.xml文件中配置hive.metastore.uris=thrift://A:9083也可以访问到元数据信息(9083端口为默认，可使用-p参数手动指定)。

二元数据库表描述

　　这一节描述hive元数据库中比较重要的一些表的作用，随着后续对hive的使用逐渐补充更多的内容。
mysql元数据库hive中的表：

表名	作用
BUCKETING_COLS	存储bucket字段信息，通过SD_ID与其他表关联
CDS	表示该分区、表存储的字段信息。一个字段CD_ID，与SDS表关联
COLUMNS_V2	表示该分区、表存储的字段信息。存储字段信息，通过CD_ID与其他表关联
DATABASE_PARAMS	描述数据库的属性信息
DBS	存储hive的database信息
DB_PRIVS	描述数据库的权限信息
DELETEME1410257703262	空
FUNCS	记录用户子集编写的函数信息，包括函数名、对应类名、创建者信息等
FUNC_RU	记录自定义函数所在文件的路径
GLOBAL_PRIVS	全局变量，与表无关
IDXS	Hive中索引的信息
INDEX_PARAMS	空
PARTITIONS	分区信息，SD_ID, TBL_ID关联
PARTITION_KEYS	存储分区字段列，TBL_ID关联
PARTITION_KEY_VALS	分区的值，通过PART_ID关联。与PARTITION_KEYS共用同一个字段INTEGER_IDX来标示不同的分区字段。
PARTITION_PARAMS	存储某分区相关信息，包括文件数，文件大小，记录条数等。通过PART_ID关联
PART_COL_PRIVS	分区列的授权信息
PART_COL_STATS	分区中列的统计信息
PART_PRIVS	空
ROLES	角色表，和GLOBAL_PRIVS配合，与表无关
SDS	存储输入输出format等信息，包括表的format和分区的format。关联字段CD_ID,SERDE_ID
SD_PARAMS	空
SEQUENCE_TABLE	存储sqeuence相关信息，与表无关
SERDES	存储序列化反序列化使用的类
SERDE_PARAMS	序列化反序列化相关配置信息，通过SERDE_ID关联
SKEWED_COL_NAMES	保存表、分区由数据倾斜的列信息，包括列名
SKEWED_COL_VALUE_LOC_MAP	空
SKEWED_STRING_LIST	保存表，分区有数据倾斜的字符串列表和值的信息
SKEWED_STRING_LIST_VALUES	保存表，分区有数据倾斜的字符串列表和值的信息
SKEWED_VALUES	保存表、分区倾斜列对应的本地文件路径
SORT_COLS	排序字段，包括列名和排序方式。通过SD_ID关联
TABLE_PARAMS	表相关信息，是否外部表，通过TBL_ID关联
TAB_COL_STATS	表中列的统计信息，包括数值类型的最大和最小值
TBLS	存储表信息，关联字段DB_ID,SD_ID,
TBL_COL_PRIVS	表或视图中列的授权信息，包括授权用户、被授权用户和授权的权限等
TBL_PRIVS	表赋权限相关信息，通过TBL_ID关联
VERSION	版本
VERSION_copy	版本，通过VER_ID关联

　　这里补充介绍hive的一个工具脚本metatool。如果需要大量修改元数据库中的相关记录，可以具体查看metatool脚本的使用方法。
　　比如说，对一个HDFS做HA的时候，如果之前hdfs完整路径是hdfs://m000，做完HA之后把dfs.nameservices设置为my-cluster之后，hdfs的访问路径就变成了hdfs://my-cluster，此时就需要对hive元数据库中所有记录作更新，这时可以参考下面的操作，
使用metatool脚本，先是新路径，然后是旧路径
/usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m00

参考：https://www.cnblogs.com/qingyunzong/p/8710356.html#_label3

无影风Victorz

关注

7
点赞
踩
45

收藏

觉得还不错? 一键收藏
1
评论
【Hive】Hive元数据库介绍及信息查看

转载@dabokele在安装Hive时，需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是，hive表中的数据都是保存的HDFS上，也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性，以及这些属性与HDFS文件对应关系的一个映射。　　这些映射关系比较常见的一...
复制链接

扫一扫