Hive 数据库操作（HQL语法详解）

最新推荐文章于 2024-09-09 09:00:00 发布

Modify_QmQ

最新推荐文章于 2024-09-09 09:00:00 发布

阅读量1.2k

点赞数

分类专栏： # Hbase 文章标签： hql hive database

本文链接：https://blog.csdn.net/qq_44973159/article/details/109092152

版权

Hbase 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据库操作

创建数据库（CREATE DATABASE）

在Hive数据库是一个命名空间或表的集合。此语法声明如下：

CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>

示例：

hive> CREATE DATABASE IF NOT EXISTS t_log;

创建的数据库位于在hive-site.xml中设定的参数hive.metastore.warehouse.dir所指向的目录。

数据库切换（use database）

语法声明如下：

use database;

示例：

use t_log;

删除数据库

此语法声明如下：

 DROP DATABASE [IF EXISTS] <database name>

示例：

 drop database if exists t_log;

数据表操作

创建表

Create Table是用于在Hive中创建表的语句。创建表语法和示例如下：

Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

关键字详解

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
[ROW FORMAT DELIMITED]关键字，是用来设置创建的表在加载数据的时候，支持的列分隔符
[STORED AS file_format]指定文件存储格式,默认是TEXTFILE，如果文件数据是纯文本，就是使用 [STORED AS TEXTFILE]，然后从本地直接拷贝到HDFS上.
有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。
表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建一个普通表：

create table test_table (id int,name string,no int) 
	row format delimited 
	fields terminated by ',' 
	stored as textfile ;

指定了字段的分隔符，hive只支持单个字符的分隔符。hive默认的分隔符是\001

修改表列类型

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type 
	[COMMENT col_comment] [FIRST|AFTER column_name]

如上述代码建立了一个数据表，修改no这一列的列名为num，数据类型不变。代码实现如下

alter table t_log change column no num int;

hive文件存储格式包括以下几类:

TEXTFILE：默认格式，数据不做压缩，磁盘开销大，数据解析开销大。
SEQUENCEFILE：Hadoop API提供的一种二进制文件支持，使用方便、可分割、可压缩的特点
RCFILE：RCFILE是一种行列存储相结合的存储方式
自定义格式：当用户的数据文件格式不能被当前 Hive 所识别的时候，可以自定义文件格式。用户可以通过实现inputformat和outputformat来自定义输入输出格式。