Hive数据类型

基本类型(主数据类型)

  • 整型(Integers)
    • TINYINT - 1 byte 有符号整数
    • SMALLINT - 2 byte 有符号整数
    • INT - 4 byte 有符号整数
    • BIGINT - 8 byte 有符号整数
  • 布尔类型(Boolean)
    • BOOLEAN - TRUE/FALSE
  • 浮点类型(Floating point numbers)
    • FLOAT - 单精度浮点数
    • DOUBLE - 双精度浮点数
  • 定点数(Fixed point numbers)
    • DECIMAL - 用户定义的比例和精度的定点值
  • 字符串(String types)
    • STRING - 字符序列。可以指定字符集。可以使用单引号或者双引号。
    • VARCHAR - 指定字符集中具有最大长度的字符序列
    • CHAR - 指定字符集中具有指定长度的字符序列
  • 日期和时间(Date and time types)
    • TIMESTAMP - 没有时区(本地日期时间)的日期和时间
    • TIMESTAMP WITH LOCAL TIME ZONE - 以纳秒为单位的时间点
    • DATE - 日期
  • 二进制类型(Binary types)
    • BINARY - 字节数组

这些类型按照以下层次结构(其中父类是所有子实例的超类型):
在这里插入图片描述
  此类型层次结构定义如何在查询语言中隐式转换类型。允许将类型从子类型隐式转换为祖先类型。因此,当查询表达式需要类型1且数据是类型2时,如果类型1是类型层次结构中类型2的祖先,则类型2将隐式转换为类型1。注意类型层次结构允许将字符串隐式转换为DOUBLE。
  可以使用强制转换操作符cast进行显式类型转换。

复杂数据类型(集合数据类型)

可以使用以下方法用基本类型和其他复合类型构建复杂类型:

  • STRUCT:可以使用点(.)符号访问类型中的元素。例如,列c的类型为STRUCT {a INT;b INT},表达式c.a访问a字段。(与C语言中的结构体类似)
  • MAP(键值对):MAP是一组键-值对元组集合,使用数组表示法(例如[‘key’])可以访问元素。例如,如果某个列的数据类型是MAP,其中键->值对是’first’->’John’和’last’->’Doe’,那么可以通过字段名[‘last’]获取值’Doe’。
  • ARRAY:数组中的元素必须是相同类型的。可以使用[n]符号访问元素,其中n是数组中的索引(从0开始)。例如,对于具有[‘A’、‘b’、‘c’]元素的数组A,[1]返回’b’。

  和基本数据类型一样,这些类型的名称同样是保留字。

  大多数的关系型数据库并不支持这些集合数据类型,因为使用它们会趋向于破坏标准格式。例如,在传统数据模型中,structs可能需要由多个不同的表拼装而成,表间需要适当地使用外键来进行连接。

  破坏标准格式所带来的一个实际问题是会增大数据冗余的风险,进而导致消耗不必要的磁盘空间,还有可能造成数据不一致,因为当数据发生改变时冗余的拷贝数据可能无法相应地同步。

  然而,在大数据系统中,不遵循标准格式的一个好处是可以提供更高吞吐量的数据。当处理的数据的数量级是T或者P时,以最少的”头部寻址”来从磁盘上扫描数据时非常必要的。按数据集进行封装的话可以通过减少寻址次数来提高查询的速度。而如果根据外键关系关联的话则需要进行磁盘间的寻址操作,这样会有非常高的性能消耗。

时间戳类型(Timestamp Types)

  • Timestamp (“LocalDateTime” semantics)

  Java的“LocalDateTime”时间戳记录的日期和时间为年、月、日、小时、分钟和秒,没有时区。这些时间戳总是具有相同的值,而与当地时区无关。表示的事在ISO-8601日历系统中没有时区的日期时间。

  例如,“2014-12-12 12:34:56”的时间戳值被分解为年、月、日、小时、分钟和秒字段,但是没有可用的时区信息。它不对应于任何特定的时刻。它始终是相同的值,而不受当地时区的影响。除非您的应用程序一致使用UTC,否则对于大多数应用程序,带有本地时区的时间戳(timestamp with local time zone)比时间戳(timestamp)更受欢迎。当用户说事件在10:00时,它总是引用某个时区,表示时间点,而不是任意时区的10:00。

  • Timestamp with local time zone (“Instant” semantics)

  Java的“即时”时间戳定义了一个时间点,无论在哪里读取数据,该时间点都保持不变。因此,Timestamp with local time zone时间戳将根据当地时区进行调整,以匹配原始时间点。

例如:

TypeValue in America/Los_AngelesValue in America/New_York
timestamp2014-12-12 12:34:562014-12-12 12:34:56
timestamp with local time zone2014-12-12 12:34:562014-12-12 15:34:56

隐式转换

在这里插入图片描述

补充

随着版本更替,hive新增了一些数据类型,具体参见官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

Numeric Types

  • TINYINT (1-byte signed integer, from -128 to 127)
  • SMALLINT (2-byte signed integer, from -32,768 to 32,767)
  • INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,147,483,647)
  • BIGINT (8-byte signed integer, from -9,223,372,036,854,775,808 to 9,223,372,036,854,775,807)
  • FLOAT (4-byte single precision floating point number)
  • DOUBLE (8-byte double precision floating point number)
  • DOUBLE PRECISION (alias for DOUBLE, only available starting with Hive 2.2.0)
  • DECIMAL
    • Introduced in Hive 0.11.0 with a precision of 38 digits
    • Hive 0.13.0 introduced user-definable precision and scale
  • NUMERIC (same as DECIMAL, starting with Hive 3.0.0)

Date/Time Types

  • TIMESTAMP (Note: Only available starting with Hive 0.8.0)
  • DATE (Note: Only available starting with Hive 0.12.0)
  • INTERVAL (Note: Only available starting with Hive 1.2.0)

String Types

  • STRING
  • VARCHAR (Note: Only available starting with Hive 0.12.0)
  • CHAR (Note: Only available starting with Hive 0.13.0)

Misc Types

  • BOOLEAN
  • BINARY (Note: Only available starting with Hive 0.8.0)

Complex Types

  • arrays: ARRAY<data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
  • maps: MAP<primitive_type, data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
  • structs: STRUCT<col_name : data_type [COMMENT col_comment], …>
  • union: UNIONTYPE<data_type, data_type, …> (Note: Only available starting with Hive 0.7.0.)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值