19-28-hive-数据类型-DDL

最新推荐文章于 2023-02-20 04:30:00 发布

镇魂Boby

最新推荐文章于 2023-02-20 04:30:00 发布

阅读量612

点赞数

分类专栏： hive 大数据 java 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/qq_37171694/article/details/128070411

版权

java 同时被 3 个专栏收录

96 篇文章 0 订阅

订阅专栏

大数据

51 篇文章 1 订阅

订阅专栏

hive

10 篇文章 0 订阅

订阅专栏

19-hive-数据类型-DDL：

基本数据类型

Hive 数据类型	Java 数据类型	长度	例子
TINYINT	byte	1byte 有符号整数	20
SMALINT	short	2byte 有符号整数	20
INT	int	4byte 有符号整数	20
BIGINT	long	8byte 有符号整数	20
BOOLEAN	boolean	布尔类型，true 或者false	TRUE FALSE
FLOAT	float	单精度浮点数	3.14159
DOUBLE	double	双精度浮点数	3.14159
STRING	string	字符系列。可以指定字符集。可以使用单引号或者双引号。	‘ now is the time ’ “for all good men”
TIMESTAMP		时间类型
BINARY		字节数组

对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

集合数据类型

数据类型	描述	语法示例
STRUCT	和 c 语言中的 struct 类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据类型是 STRUCT{first STRING, last STRING},那么第 1 个元素可以通过字段.first 来	struct()例如 struct<street:string, city:string>
MAP	MAP 是一组键-值对元组集合，使用数组表示法可以访问数据。例如，如果某个列的数据类型是 MAP，其中键->值对是’first’->’John’和’last’->’Doe’，那么可以通过字段名[‘last’]获取最后一个元素	map()例如 map<string, int>
ARRAY	数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素，每个数组元素都有一个编号，编号从零开始。例如，数组值为[‘John’, ‘Doe’]，那么第 2 个元素可以通过数组名[1]进行引用。	Array()例如 array

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array

和 Map 类似，而 STRUCT 与 C 语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据

类型允许任意层次的嵌套。

测试

（1）假设某表有如下一行，用 JSON 来表示结构。在Hive 下访问的格式为

{
	"name": "songsong",
	"friends": ["bingbing" , "lili"] , //列表 Array, 
	"children": { //键值 Map,
		"xiao song": 18 ,
		"xiaoxiao song": 19
	}
	"address": { //结构 Struct,
		"street": "hui long guan",
		"city": "beijing"
	} 
}

（2）基于上述数据结构，在 Hive 创建对应表，并导入数据。

创建本地测试文件 test.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijing
yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

注意：MAP，STRUCT 和 ARRAY 里的元素间关系都可以用同一个字符表示，这里用“_”。

（3）Hive 上创建测试表 test

create table test_v1(
    name string,
    friends array<string>, 
    children map<string, int>,
    address struct<street:string, city:string> 
)
row format delimited fields terminated by ','
collection items terminated by '_'
map keys terminated by ':'
lines terminated by '\n';

字段解释：

row format delimited fields terminated by ‘,’ – 列分隔符

collection items terminated by ‘_’

–MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)

map keys terminated by ‘:’

– MAP 中的 key 与 value 的分隔符

lines terminated by ‘\n’;

– 行分隔符

（4）导入文本数据到测试表

[root@hadoop102 hive]# hadoop fs -put datas/test.text /user/hive/warehouse/test_v1

或者

load data local inpath ‘/opt/module/hive/datas/test.txt’ into table test;

（5）访问三种集合列里的数据，以下分别是 ARRAY，MAP，STRUCT 的访问方式

select friends[1],children['xiao song'],address.city from test_v1 where name="songsong";

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jRJkW1dH-1669556362633)(png/image-20210730101641160.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zsLN32SB-1669556362634)(png/image-20210730101951745.png)]

类型转换

Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式

使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表

达式使用 TINYINT 类型，INT 不会自动转换为 TINYINT 类型，它会返回错误，除非使用 CAST

操作。

1）隐式类型转换规则如下

（1）任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转换成

INT，INT 可以转换成 BIGINT。

（2）所有整数类型、FLOAT 和 STRING（Integer.parse） 类型都可以隐式地转换成 DOUBLE。

（3）TINYINT、SMALLINT、INT 都可以转换为 FLOAT。

（4）BOOLEAN 类型不可以转换为任何其它的类型。

2）可以使用 CAST 操作显示进行数据类型转换

例如 CAST(‘1’ AS INT)将把字符串’1’ 转换成整数 1；如果强制类型转换失败，如执行CAST(‘X’ AS INT)，表达式返回空值 NULL。

select ‘1’+2, cast('1’as int) + 2;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YtiYbDIr-1669556362635)(png/image-20210730102758342.png)]

DDL数据定义

查库 show databases;

显示表 show tables;

显示表的创建语句（使用了默认） show create table table_name;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1wUMHIv5-1669556362635)(png/image-20210730103717639.png)]

1、创建数据库

语法

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]					#注释
[LOCATION hdfs_path]						#指定当前库创建到那个目录，默认user/warehouse
[WITH DBPROPERTIES (property_name=property_value, ...)];# 列名称，参数名称，参数值

创建一个数据库，指定数据库在 HDFS 上存放的位置

create database db_hive2 location ‘/db_hive2.db’;

2、查看-切换表

查所有数据库 show databases;

过滤查数据库 show databases like ‘hive*’;

查数据库信息 desc database hive_v1;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xvd1NDPY-1669556362636)(png/image-20210730112117511.png)]

显示数据库详细 desc database extended hive_v1;

切换数据库 use database_name;

3、修改数据库

ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值

hive (default)> alter database hive_v1 set dbproperties('createtime'='2021-02-03');

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VvgH2ozy-1669556362636)(png/image-20210730135354847.png)]

4、删除数据库

drop database db_hive2;

drop database if exists db_hive2;

drop database db_hive cascade;

1）删除空数据库

hive>drop database db_hive2;

2）如果删除的数据库不存在，可采用if exists 判断数据库是否存在

hive> drop database db_hive;

FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

hive> drop database if exists db_hive2;

3）如果数据库不为空，可以采用 cascade 命令，强制删除

hive> drop database db_hive;

FAILED: Execution Error, return code 1 from

org.apache.hadoop.hive.ql.exec.DDLTask.

InvalidOperationException(message:Database db_hive is not empty. One or

more tables exist.)

hive> drop database db_hive cascade;

表

创建表（内部表，外部表）

语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name #external分内部和外部表
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]#表的注释
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]#创建分区表
[CLUSTERED BY (col_name, col_name, ...)#分桶表
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]#和分桶表有关，排序
[ROW FORMAT row_format]#定义行的限制，格式
[STORED AS file_format]#文件格式
[LOCATION hdfs_path]#hdfs路径，表的位置信息
[TBLPROPERTIES (property_name=property_value, ...)]#额外属性
[AS select_statement]#通过查询的方式建表

管理表与外部表

内部表会删除数据和hive元数据，外部表只删除hive元数据。

hive (hive_v1)> create external table table_v1(id string);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bwmy1VsL-1669556362637)(png/image-20210731123916525.png)]

默认创建的表都是所谓的管理表，有时也被称为内部表。因为这种表，Hive 会（或多或少地）控制着数据的生命周期。Hive 默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(如，/user/hive/warehouse)所定义的目录的子目录下。当我们删除一个管理表时，Hive 也会删除这个表中数据。管理表不适合和其他工具共享数据。

管理表与外部表的互相转换

（1）查询表的类型

hive (default)> desc formatted student2;
Table Type: MANAGED_TABLE

（2）修改内部表 student2 为外部表

alter table student2 set tblproperties('EXTERNAL'='TRUE');

（3）查询表的类型

hive (default)> desc formatted student2;
Table Type: EXTERNAL_TABLE

（4）修改外部表 student2 为内部表

alter table student2 set tblproperties('EXTERNAL'='FALSE');

（5）查询表的类型

hive (default)> desc formatted student2;
Table Type: MANAGED_TABLE

注意：(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法，区分大小写！

指定行格式，指定分隔符。

hive (hive_v1)> insert into table_v2 values(1001,‘zhangsan’);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nm4Ahao6-1669556362637)(png/image-20210731130801674.png)]

hive (hive_v1)> create table table_v3(id int,name string) row format delimited fields terminated by ‘,’;

修改表

重命名表ALTER TABLE table_name RENAME TO new_table_name

增加/修改/替换列信息

（1）更新列

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name 
column_type [COMMENT col_comment] [FIRST|AFTER column_name]

hive (hive_v1)> alter table table_v4 change id stu_id string;

hive (hive_v1)> alter table table_v4 change stu_id id string;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1KNk1tx3-1669556362637)(png/image-20210731170829747.png)]

（2）增加和替换列,修改的是元数据

ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT 
col_comment], ...)

注：ADD 是代表新增一字段，字段位置在所有列后面(partition 列前)，REPLACE 则是表示替换表中所有字段。replace需要写全。

hive (hive_v1)> alter table table_v4 add columns (name string);

hive (hive_v1)> alter table table_v4 replace columns (stu_id string);

删除表 drop table table_name;

学习路径：https://space.bilibili.com/302417610/，如有侵权，请联系q进行删除：3623472230

镇魂Boby

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录