数据处理技术-Hive的表与数据类型

最新推荐文章于 2024-07-18 11:08:26 发布

Ayu阿予

最新推荐文章于 2024-07-18 11:08:26 发布

阅读量626

点赞数 13

分类专栏： # DAPT 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/Coder_OreoZ/article/details/139752040

版权

DAPT 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Hive数据模型

Hive的数据模型主要由表构成，包括内部表，外部表，分区表和桶表。我也将从这四个方面介绍。
在这之前先介绍另外一个概念：DDL，Data Definition Language数据定义语言，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言。核心语法由CREATE, ALTER, DROP三个组成。DDL并不涉及表内部数据的操作，也就是不涉及DELETE之类的。

内部表Table
表的创建过程和数据加载过程可以在同一个语句中完成，当删除表时，表中的数据和元数据将一同被删除。

//创建表
create table stu(
    id int,
    name string,
    age int, 
    gender string
)
row format delimited fields terminated by "," //以’，'结尾的行格式分隔字段
location "hdfs://datalocation";

外部表External Table
外部表是一个过程，表的创建和加载是同时完成的，但是外表中真正的数据不是放在自己表所属的目录中，而是存储在指定的HDFS路径中。因此删除外部表，并不删除实际的数据，只是删除相应的元数据。

//创建表
create external table stu(
    id int,
    name string, 
    age int, 
    gender string
)
row format delimited fields terminated by ","
location "hdfs://datalocation";

分区表Partition Table
分区表是指在创建表时指定的Partition的分区空间。Hive引入分区表的目的是可以让查询发生在小范围的数据上，避免扫描整个表内容，从而提高了数据查询效率。

create table if not exists stu(
    id int,
    name string, 
    age int,
    gender string
)
row format delimited fields terminated by ","
location ""
partition by id int;

一个表可以有一个或多个分区；分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段。

桶表Bucket Table
桶是更为细粒度的数据范围划分。桶是对数据文件本身来拆分数据，而表和分区则是基于目录级别的拆分数据。使用桶的表回将元数据文件按一定规律拆分成多个文件。Hive引入桶表的目的是为了获得更高的查询处理效率，它能使一些特定的查询效率更高，如对于具有相同的桶划分并且Join的列刚好就是在桶里的连接查询等。

create table stu(
    id int,
    name string
)
row format delimited fields terminated by ","
clustered by(id) into 4 buckets;

桶的数量是用户自定义的，Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

数据类型

除了关系型数据库支持的基本数据类型外，Hive还支持关系型数据库很少出现的四种复杂数据类型：数组，映射，结构体，联合体。

数据类型转换

在这里插入图片描述

Ayu阿予

关注

13
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据处理技术-Hive的表与数据类型

复习笔记
复制链接

扫一扫

专栏目录