Hive数据类型和数据格式

Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3中集合数据类型:
基本数据类型:
tinyint(1byte)、smallint(2byte)、int(4byte)、bigint(8byte)、boolean(true|false)、float(单精度浮点数)、double(双精度浮点数)、string(字符序列)、timestamp(整数、浮点数或者字符串)、binary(字节数组)

集合数据类型:
struct:和C语言中的struct对象一样,都通过“点”符号访问元素内容,eg: struct{first string , last string},访问时通过:字段名.first来引用
map:是一组键-值对元组集合,可通过字段名['key']来访问
array:是一组具有相同类型和名称的变量的集合,编号从0开始,通过下标访问

文本文件数据编码:
逗号分隔符的文件:csv
制表符跟个的文件:tsv

hive中默认的记录和字段分隔符
\n        换行符
^A      ctrl+A 用于分隔字段(列),create table时可以使用八进制编码\001表示
^B      用于分隔Array或者Struct中的元素,或用于Map中键-值对之间的分隔符,八进制编码\002表示
^C      用于Map中键和值之间的分隔 ,八进制编码\003表示

create table emp {
name string,
salary float,
subordinates array<string>,
deductions  map<string,float>,
address struct<street:string , city:string , state:string , zip:int>
}
row format delimited fields terminated by '\001'
collection items terminated by '\002'
map keys terminated by '\003'
line terminated by '\n'
stored as textfile;

读时模式:
当用户向传统数据库中加载数据的时候,数据库对于存储具有完全的控制能力,数据库就是"守门人"。传统数据库是写入模式,即数据在写入数据库时对模式进行检查。
Hive对于存储没有这样的控制,Hive不会在数据加载的时候进行验证,而是在查询的时候进行,也就是读时模式。
那么如果模式和文件内容不匹配怎么办呢?
如果记录中的字段个数或者字段类型不匹配的话,那么用户会在查询结果中看到多个null值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值