1、Hive存储格式
①TEXTFILE:文本文件格式
②SEQUENCEFILE:二进制序列化过的Key/Value字节流
③ECFILE:面向列的数据存储格式
④ORCFILE:对RCFILE的优化
2、Hive数据单元
①数据库
②表:由列构成,在表上可以进行过滤、映射、连接和联合操作。表在HDFS中表现为所属数据库目录下的子目录,分内部表、外部表。内部表类似于RDBMS中的表由Hive管理。外部表指向已经存在HDFS中的数据,真实数据不被Hive管理。
③分区:作用是提高查询的效率,其在HDFS中表现为表目录下的子目录。
④分桶:根据表中某一列的哈希值可将数据划分为多个分桶,在HDFS中分桶表现为同一个目录下根据哈希散列之后的多个文件。
3、Hive存储模型
/数据仓库地址/数据库名称/表名称/数据文件
/数据仓库地址/数据库名称/表名称/分区键/数据文件
4、数据基本类型
整数:TINYINT、SMALLINT、INT、BIGINT
小数:FLOAT、DOUBLE、DECIMAL
文本:STRING、CHAR、VARCHAR
布尔:BOOLEAN
二进制:BINARY
时间:DATE、TIMESTAMP、INTERVAL
5、复杂数据类型
①ARRAY和MAP
ARRAY是具有相同类型变量的集合
MAP是一组键值对组合,key只能是基本类型,值可以是任意类型
②STRUCT
封装了一组有名字的字段,其类型可以是任意的基本类型
③UNIONTYPE
在任一时刻只有其中一个类型生效