关于Hive
官方定义:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.
即:Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件
Hive作为Hadoop的一个数据仓库工具,Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。如若像我一样暂不需要深入接触大数据的话,了解Hive是Hadoop的一个数据仓库工具,提供大数据SQL查询功能,并且hivesql语法类似sql。
基础数据类型:
数据类型 | 长度 | 备注,例子 |
---|---|---|
Tinyint | 1字节的有符号整数 | -128~127,20 |
SmallInt | 1个字节的有符号整数 | -32768~32767,20 |
Int | 4个字节的有符号整数 | -2147483648 ~ 2147483647,20 |
BigInt | 8个字节的有符号整数 | ,20 |
Boolean | 布尔类型,true或者false | true、false,true |
Float | 单精度浮点数 | ,3.14159 |
Double | 双精度浮点数 | ,3.14159 |
String | 字符串 | ,'hello word' "hello word " |
TimeStamp | 整数 | 支持Unix timestamp,可以达到纳秒精度 |
Binary | 字节数组 | |
Date | 日期 | 0000-01-01 ~ 9999-12-31,常用String代替 |
--- | --- | --- |
复杂数据类型
STRUCT | 类似 ‘对象’ | struct('john','doe') |
MAP | 一组键-值对元组组合 | map('first','join','last','doe') |
ARRAY | 数组是一组具有相同类型对和名称对变量对集合。 | Array('John','Doe') |
--- | --- | --- |
语法
Hive本身可能就是为了让会SQL的人快速使用Hadoop进行数据操作,所以hivesql和sql语法大体一致,遇到不同的地方再补充。