Hive基础

最新推荐文章于 2024-07-25 11:27:49 发布

冬瓜的编程笔记

最新推荐文章于 2024-07-25 11:27:49 发布

阅读量1.1k

点赞数 27

分类专栏：大数据文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/m0_62332728/article/details/135526838

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

hive的基础部分大致有四部分：Hive数据类型、Hive运算符、Hive数据存储、Hive表存储格式。这四部分是学习hive必须掌握的知识。

一、Hive数据类型

整体概述

1，hive的数据类型指的是表中列字段类型，类似于编程语言中对变量类型的定义如：浮点型、整型、布尔型等等。

2，hive的数据类型分为两大类：基本数据类型和复杂数据类型。

基本数据类型包括：数值类型、布尔类型、字符串类型、时间日期类型。

复杂数据类型包括：Array数组、Map映射、Struct结构体。

基本数据类型

2字节、4字节、8字节的有符号整数的取值范围：https://blog.csdn.net/m0_48011056/article/details/125153980

基本数据类型	描述	示例
Tinyint	1字节有符号整数	80
Smallint	2字节有符号整数	80
Int	4字节有符号整数	80
Bigint	8字节有符号整数	80
Boolean	布尔类型，True或者False	True，False
Float	单精度浮点数	3.14159
Double	双精度浮点数	3.14159
Decimal	任意精度的带符号小数	Decimal(5,2)用于存储-999.99～999.99的5位数值，小数点后2位
String	变长字符串。使用单引号或双引号	'now is the time'，"for all good men"
Varchar	变长字符串	"a"，'b'
Char	固定长度字符串	"a"，'b'
Date	日期，对应年、月、日	'2021-03-29'
TimeStamp	时间戳	不包含任务的时区信息
Binary	字节数组	用于存储变长的二进制数据

复杂数据类型

复杂数据类型	描述	示例
Array	一组具有相同数据类型的数据的集合	数组friends['Bill','Linus']，第2个元素可以通过friends[1]进行访问
Map	一组键值对元组的集合	如果字段children的数据类型是Map，其中键值对是'Paul'->18，那么可以通过字段名children['Paul']访问这个元素
Struct	封装一组有名字的字段，其类型可以是任意的基本数据类型	如果字段address的数据类型是Struct{first String, last String}，那么第1个元素可以通过address.first来访问

注意事项：

Hive SQL中，数据类型英文字母大小写不敏感；

除SQL数据类型外，还支持Java数据类型，比如字符串string；

复杂数据类型的使用通常需要和分隔符指定语法配合使用；

如果定义的数据类型和文件不一致，Hive会尝试隐式转换，但是不保证成功。

隐式转换：

与标准SQL类似，HQL支持隐式和显式类型转换。原生类型从窄类型到宽类型的转换称为隐式转换，反之，则不允许。下表描述了类型之间允许的隐式转换：

显示转换：

显式类型转换使用CAST函数。例如，CAST（‘100’ as INT）会将100字符串转换为100整数值。如果强制转换失败，例如CAST（‘Allen‘ as INT），该函数返回NULL。

二、Hive运算符

Hive有4种类型的运算符：算术运算符、比较运算符、逻辑运算符和复杂运算符。

算数运算符：

比较运算符：

逻辑运算符：

复杂运算符：

三、Hive存储路径

默认存储路径

Hive表默认存储路径是由 ${HIVE_HOME}/conf/hive-site.xml配置文件的hive.metastore.warehouse.dir属性指定，默认值是：/user/hive/warehouse。

Databases 数据库

Hive作为一个数据仓库，在结构上积极向传统数据库看齐，也分数据库（Schema），每个数据库下面有各自的表组成。默认数据库default。

Hive的数据都是存储在HDFS上的，默认有一个根目录，在hive-site.xml中，由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse。因此，Hive中的数据库在HDFS上的存储路径为： ${hive.metastore.warehouse.dir}/databasename.db

比如，名为itcast的数据库存储路径为： /user/hive/warehouse/itcast.db