Hive
支持关系型数据库的绝大多数
基本数据类型
,同时也支持
4
种
集合数据类型
。
基本数据类型及转换
集合数据类型
文本文件数据编码
Hive
表中的数据在存储在文件系统上,
Hive
定义了默认的存储格式,也支持用户自 定义文件存储格式。
Hive
默认使用几个很少出现在字段值中的控制字符,来表示替换默认分隔符的字符。
Hive
默认分隔符
默认的分隔导致可读性极差
读时模式
在传统数据库中,在加载时发现数据不符合表的定义,则拒绝加载数据。数据在写入数据库时对照表模式进行检查,这种模式称为"
写时模式
"
(
schema on write
)。
写时模式 -> 写数据检查 -> RDBMS;
Hive
中数据加载过程采用
"
读时模式
" (schema on read)
,加载数据时不进行数据格式的校验,读取数据时如果不合法则显示NULL
。这种模式的优点是加载数据迅速。
读时模式 -> 读时检查数据 -> Hive;好处:加载数据快;问题:数据显示NULL
类型转换:
隐式转换
显示转换
使用
cast
函数进行强制类型转换;如果强制类型转换失败,返回
NULL