Hive中数据类型可以分为基本数据类型和复合数据类型。这些数据类型都是用Java实现的。
1. 基本数据类型
类型名称 | 描述 | 举例 |
---|---|---|
boolean | true/false | true |
tinyint | 1byte有符号整数 (-128 to 127) | 30 |
smallint | 2byte有符号整数 (-32,768 to 32,767) | 30 |
int | 4byte有符号整数 (-2,147,483,648 to 2,147,483,647) | 30 |
bigint | 8byte有符号整数 (-9,223,372,036,854,775,808 to 9,223,372,036,854,775,807) | 30 |
float | 4byte单精度浮点数 | 1.0 |
double | 8byte双精度浮点数 | 1.0 |
string | 字符串(无长度限制) | ‘hello world’ |
varchar ( 0.12.0+) | 字符串(1-65355位,超长截断) | ‘abc’ |
timestamp (v0.8.0+) | 整数,浮点数或字符串 ( Hive 0.8.0及以后) | 123345677(Unix新纪元秒数); 123345677.123456789(Unix新纪元秒+纳秒数); ‘2020-06-11 20:39:35.123456789’(JDBC 所兼容的java.sql.Timestamp时间格式) |
date ( 0.12.0+) | 日期 | 20200611 |
2. 复合数据类型
类型名称 | 描述 | 举例 |
---|---|---|
array | 字段类型必须相同 | array(1,2,3) |
map | 键值对 | map(name:zhangsan,age:12) |
struct | 字段类型可以不同 | strunct(‘a’,1,2,3) |
下面举例说明如何使用复合数据类型建表,以及如何查询复合数据类型的数据:
2.1 创建表
create table myhive.complex
(id int,
profession ARRAY<string>,
info map<string,string>,
address struct<province:string, city:string, district:string>)
row format delimited fields terminated by ' '
collection items terminated by '#'
map keys terminated by ':';
2.2 导入数据
vi /home/hadoop/data/hiveData/complex.txt
#插入如下数据
1 teacher#driver name:john#age:28 shandong#qingdao#huangdaoqu
表中导入数据
load data local inpath '/home/hadoop/data/hiveData/complex.txt' into table myhive.complex;
2.3 查询数据
#array类型按下标查询
select id,profession[0],profession[1] from myhive.complex;
#map类型按key查询
select id,info['name'] as name, info['age'] as age from myhive.complex;
#struct类型按key查询
select id,address.province, address.city, address.district from myhive.complex;
总结
对于Hive而言,有时并不太了解被推送到系统中的数据,所以采用相对不严格的数据类型会好一些,这样可以避免数据在导入时不被截断。