Hive 读书笔记3：HiveQL Data Definition(上)

最新推荐文章于 2024-06-17 18:25:31 发布

波特王子

最新推荐文章于 2024-06-17 18:25:31 发布

阅读量1.1k

点赞数

分类专栏： Hive学习

本文链接：https://blog.csdn.net/sptoor/article/details/10525113

版权

Hive学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HiveQL可以认为是SQL的一种方言，它不完全遵循任何一个版本的ANSI SQL标准，它似乎跟MySQL比较接近，但有一个显著地不同：Hvie不支持行级别的Insert、Update和Delete，并且Hive不支持事务。

创建一个库：create database mydb; 或者create database if not exists mydb;

删除库：DROP DATABASE IF EXISTS mydb;

Hive默认情况下不允许删除存在表的库，因而可以用cascade同时删除所有表：DROP DATABASE IF EXISTS financials CASCADE;

也可以使用schema关键字代替database，二者在hive中等价；

show databases; 查看当前hive下有些什么database，当然也可以用show schemas;如果库比较多，可以用正则表达式限定你感兴趣的database：show databases like 'my.*';Hive为每个database创建一个目录，其下的各表存为子目录。例外的是default database，它不存在自己的目录。当一个库被删除时，其目录也删掉了。查看一个database的属性：describe database mydb; 或者describe database extended mydb;

可以使用use指令指定当前工作的database：use mydb;然后再执行show tables可以查看当前database下的表（当然也可以显示非当前库下的表，采用show tables in otherdb; 如果要进一步通过正则表达式指定感兴趣的表的话，可以： show tables in mydb like 'my.*';）。然而hive却没有指令显示当前在哪个database。但是反复使用use ...指令总是安全的，因为Hive下database没有嵌套的概念。另外，可以通过设定set hive.cli.print.current.db=true;将当前库显示在“Hive>”前面。

Alter Database指令只能修改key-value形式的属性，不能修改除此之外的任何元数据，例如名称和目录路径。例如：hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');

Hive下创建表：

CREATE TABLE IF NOT EXISTS mydb.employees (
name STRING COMMENT 'Employee name',
salary FLOAT COMMENT 'Employee salary',
subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
deductions MAP<STRING, FLOAT>
COMMENT 'Keys are deductions names, values are percentages',
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
COMMENT 'Home address')
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00', ...)
LOCATION '/user/hive/warehouse/mydb.db/employees';

可以冠以“mydb”，在当前工作的库不在目标库下面时。

通过现有的表创建一张新表（它们具有一致的表定义，只是数据不一样，数据位置可以通过location指定，除此之外其它任何属性均不能指定）：

CREATE TABLE IF NOT EXISTS mydb.employees2
LIKE mydb.employees;

Hive下有两种表，一种是托管表（Managed Table），又称内部表，另一种是外部表。对于托管表，Hive会管理其数据的整个生命周期，在表删除时会删除数据。但是托管表不方便与其它工具数据共享。如果我们有主要供其它工具使用的数据（例如Pig），而不想讲ownership转移给hive，可以采用外部表，将表的数据指定出来即可。

创建外部表：

CREATE EXTERNAL TABLE IF NOT EXISTS stocks (
exchange STRING,
symbol STRING,
ymd STRING,
price_open FLOAT,
price_high FLOAT,
price_low FLOAT,
price_close FLOAT,
volume INT,
price_adj_close FLOAT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/data/stocks';

采用Location 关键字指定外部文件位置。这样，删除表时，就不会删除数据文件，仅仅删除元数据。

采用托管表的定义创建一个外部表：

CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3
LIKE mydb.employees
LOCATION '/path/to/data';

注意，如果省去“External”关键字，原始表为外部表，则新创建表也是外部表；原始表为托管表，新建表也为托管表。

但实际上Hive对托管表数据的控制并不是完全的，你同样可以采用别的工具去读写托管表路径下的文件，甚至删除它（正如Schema on Read的思想所表达的那样）。当然，如果数据需要跟其他工具共享，从设计上讲，还是应该指定为外部表。

波特王子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive 读书笔记3：HiveQL Data Definition(上)

HiveQL可以认为是SQL的一种方言，它不完全遵循任何一个版本的ANSI SQL标准，它似乎跟MySQL比较接近，但有一个显著地不同：Hvie不支持行级别的Insert、Update和Delete，并且Hive不支持事务。创建一个库：create database mydb; 或者create database if not exists mydb; 也可以使用schema关键字
复制链接

扫一扫

专栏目录