Hive 读书笔记3:HiveQL Data Definition(上)

HiveQL可以认为是SQL的一种方言,它不完全遵循任何一个版本的ANSI SQL标准,它似乎跟MySQL比较接近,但有一个显著地不同:Hvie不支持行级别的Insert、Update和Delete,并且Hive不支持事务


创建一个库:create database mydb; 或者create database if not exists mydb; 

删除库:DROP DATABASE IF EXISTS mydb;

Hive默认情况下不允许删除存在表的库,因而可以用cascade同时删除所有表:DROP DATABASE IF EXISTS financials CASCADE;

也可以使用schema关键字代替database,二者在hive中等价;


show databases; 查看当前hive下有些什么database,当然也可以用show schemas;如果库比较多,可以用正则表达式限定你感兴趣的database:show databases like 'my.*';Hive为每个database创建一个目录,其下的各表存为子目录。例外的是default database,它不存在自己的目录。当一个库被删除时,其目录也删掉了。查看一个database的属性:describe database mydb; 或者describe database extended mydb;


可以使用use指令指定当前工作的database:use mydb;然后再执行show tables可以查看当前database下的表(当然也可以显示非当前库下的表,采用show tables in otherdb; 如果要进一步通过正则表达式指定感兴趣的表的话,可以: show tables in mydb like 'my.*';)。然而hive却没有指令显示当前在哪个database。但是反复使用use ...指令总是安全的,因为Hive下database没有嵌套的概念。另外,可以通过设定set hive.cli.print.current.db=true;将当前库显示在“Hive>”前面。


Alter Database指令只能修改key-value形式的属性,不能修改除此之外的任何元数据,例如名称和目录路径。例如:hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');


Hive下创建表:

CREATE TABLE IF NOT EXISTS mydb.employees (
name STRING COMMENT 'Employee name',
salary FLOAT COMMENT 'Employee salary',
subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
deductions MAP<STRING, FLOAT>
COMMENT 'Keys are deductions names, values are percentages',
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
COMMENT 'Home address')
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00', ...)
LOCATION '/user/hive/warehouse/mydb.db/employees';
可以冠以“mydb”,在当前工作的库不在目标库下面时。

通过现有的表创建一张新表(它们具有一致的表定义,只是数据不一样,数据位置可以通过location指定,除此之外其它任何属性均不能指定):

CREATE TABLE IF NOT EXISTS mydb.employees2
LIKE mydb.employees;

Hive下有两种表,一种是 托管表(Managed Table),又称内部表,另一种是外部表。对于托管表,Hive会管理其数据的整个生命周期,在表删除时会删除数据。但是托管表不方便与其它工具数据共享。如果我们有主要供其它工具使用的数据(例如Pig),而不想讲ownership转移给hive,可以采用外部表,将表的数据指定出来即可。


创建外部表:

CREATE EXTERNAL TABLE IF NOT EXISTS stocks (
exchange STRING,
symbol STRING,
ymd STRING,
price_open FLOAT,
price_high FLOAT,
price_low FLOAT,
price_close FLOAT,
volume INT,
price_adj_close FLOAT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/data/stocks';
采用Location 关键字指定外部文件位置。这样,删除表时,就不会删除数据文件,仅仅删除元数据。

采用托管表的定义创建一个外部表:

CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3
LIKE mydb.employees
LOCATION '/path/to/data';

注意,如果省去“External”关键字,原始表为外部表,则新创建表也是外部表;原始表为托管表,新建表也为托管表。


但实际上Hive对托管表数据的控制并不是完全的,你同样可以采用别的工具去读写托管表路径下的文件,甚至删除它(正如Schema on Read的思想所表达的那样)。当然,如果数据需要跟其他工具共享,从设计上讲,还是应该指定为外部表。














  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当DBeaver连接Hive数据库时出现"Connection refused: connect"错误,可能是由于以下原因导致的: 1. 网络连接问题:请确保您的网络连接正常,并且可以访问Hive数据库所在的主机。您可以尝试使用ping命令来测试与主机的连接性。 2. 防火墙设置:检查您的防火墙设置,确保允许DBeaver访问Hive数据库所在的主机和端口。您可以尝试暂时禁用防火墙来排除此问题。 3. 主机和端口配置:请确保您在DBeaver中正确配置了Hive数据库的主机和端口。检查连接配置中的主机名和端口号是否正确。 4. Hive服务未启动:如果Hive服务未启动,DBeaver将无法连接到Hive数据库。请确保Hive服务正在运行,并且可以通过其他方式连接到它。 5. 配置文件错误:检查Hive的配置文件,确保其中的网络配置正确。特别是检查hive-site.xml文件中的hive.server2.thrift.port属性是否与DBeaver中配置的端口一致。 如果您已经排除了上述问题,但仍然遇到"Connection refused: connect"错误,请尝试以下解决方法: 1. 检查DBeaver版本:确保您使用的是最新版本的DBeaver。有时旧版本可能存在一些已知的连接问题,升级到最新版本可能会解决问题。 2. 检查驱动程序:确保您使用的是适用于Hive的正确驱动程序。在DBeaver中,您可以在连接配置中选择正确的驱动程序。 3. 检查连接URL:在DBeaver中,您可以尝试使用不同的连接URL来连接Hive数据库。有时候使用不同的URL格式可能会解决连接问题。 4. 重启DBeaver和Hive服务:有时候重新启动DBeaver和Hive服务可以解决连接问题。尝试关闭并重新打开DBeaver,并重新启动Hive服务。 5. 咨询技术支持:如果您尝试了以上方法仍然无法解决问题,建议咨询DBeaver或Hive的技术支持,他们可能能够提供更具体的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值