Hive 元数据

最新推荐文章于 2024-05-31 08:47:07 发布

m0_73577749

最新推荐文章于 2024-05-31 08:47:07 发布

阅读量779

点赞数 13

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/m0_73577749/article/details/137466700

版权

一、元数据(metadata)

元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库（Metadata Repository）来统一地存储和管理元数据，其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。
元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。

1.1、Metastore作用

客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。

1.2、元数据的存储方式

1、hive自带的derby数据库进行元数据的存储
2、mysql数据库来进行hive元数据的存储
补充：推荐使用Mysql进行存储。

1.3 补充资料

Hive之深入了解元数据_hive元数据-CSDN博客

二、hive的DDL操作

1.创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (property_name=property_value, ...)];

2.查询数据库

2.1 查询数据库

hive> show databases;

2.2 过滤显示查询的数据库

hive> show databases like 'db_hive*'; OK

2.3 查看数据库详情

hive> desc database db_hive;

2.4 显示数据库详细信息，extended

hive> desc database extended db_hive; OK

db_hive hdfs://hadoop102:9820/user/hive/warehouse/db_hive.db atguiguUSER

2.5 切换当前数据库

hive (default)> use db_hive;

3. 删除数据库

drop database if exists db_hive2

4. 创建表

4.1 建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format]

[STORED AS file_format] [LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)] [AS select_statement]

4.2 字段解释说明

（1）CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

（2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

（3）COMMENT：为表和列添加注释。

（4）PARTITIONED BY 创建分区表

（5）CLUSTERED BY 创建分桶表

（6）SORTED BY 不常用，对桶中的一个或多个列另外排序

（7）ROW FORMAT

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW

FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。

SerDe 是 Serialize/Deserilize 的简称， hive 使用 Serde 进行行对象的序列与反序列化。

（8）STORED AS 指定存储文件类型常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列

式存储格式文件）

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。

（9）LOCATION ：指定表在 HDFS 上的存储位置。

（10）AS：后跟查询语句，根据查询结果创建表。

（11）LIKE 允许用户复制现有的表结构，但是不复制数据。

5.外部表

5.1 理论

因为表是外部表，所以 Hive 并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据，不过描述表的元数据信息会被删除掉。

6.修改表

6.1 重命名表

ALTER TABLE table_name RENAME TO new_table_name

6.2 增加/修改/替换列信息

（1）更新列

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

（2）增加和替换列

ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

注：ADD 是代表新增一字段，字段位置在所有列后面(partition 列前)，

REPLACE 则是表示替换表中所有字段

7.删除表

hive (default)> drop table dept;

三、DML 数据操作

1. 数据导入

load data [local] inpath '数据的 path' [overwrite] into table

student [partition (partcol1=val1,…)];

（1）load data:表示加载数据

（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表

（3）inpath:表示加载数据的路径

（4）overwrite:表示覆盖表中已有数据，否则表示追加

（5）into table:表示加载到哪张表

（6）student:表示具体的表

（7）partition:表示上传到指定分区

m0_73577749

关注

13
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
Hive 元数据

元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。删除该表并不会删除掉这份数据，不过描述表的元数据信息会被删除掉。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
复制链接

扫一扫