数据处理技术-Hive的表与数据类型

Hive数据模型

Hive的数据模型主要由表构成,包括内部表,外部表,分区表和桶表。我也将从这四个方面介绍。
在这之前先介绍另外一个概念:DDL,Data Definition Language数据定义语言,是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言。核心语法由CREATE, ALTER, DROP三个组成。DDL并不涉及表内部数据的操作, 也就是不涉及DELETE之类的。

  1. 内部表Table
    表的创建过程和数据加载过程可以在同一个语句中完成,当删除表时,表中的数据和元数据将一同被删除。
//创建表
create table stu(
    id int,
    name string,
    age int, 
    gender string
)
row format delimited fields terminated by "," //以’,'结尾的行格式分隔字段
location "hdfs://datalocation";
  1. 外部表External Table
    外部表是一个过程,表的创建和加载是同时完成的,但是外表中真正的数据不是放在自己表所属的目录中,而是存储在指定的HDFS路径中。因此删除外部表,并不删除实际的数据,只是删除相应的元数据。
//创建表
create external table stu(
    id int,
    name string, 
    age int, 
    gender string
)
row format delimited fields terminated by ","
location "hdfs://datalocation";
  1. 分区表Partition Table
    分区表是指在创建表时指定的Partition的分区空间。Hive引入分区表的目的是可以让查询发生在小范围的数据上,避免扫描整个表内容,从而提高了数据查询效率。
create table if not exists stu(
    id int,
    name string, 
    age int,
    gender string
)
row format delimited fields terminated by ","
location ""
partition by id int;

一个表可以有一个或多个分区;分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段。

  1. 桶表Bucket Table
    桶是更为细粒度的数据范围划分。桶是对数据文件本身来拆分数据,而表和分区则是基于目录级别的拆分数据。使用桶的表回将元数据文件按一定规律拆分成多个文件。Hive引入桶表的目的是为了获得更高的查询处理效率,它能使一些特定的查询效率更高,如对于具有相同的桶划分并且Join的列刚好就是在桶里的连接查询等。
create table stu(
    id int,
    name string
)
row format delimited fields terminated by ","
clustered by(id) into 4 buckets;

桶的数量是用户自定义的,Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

数据类型

除了关系型数据库支持的基本数据类型外,Hive还支持关系型数据库很少出现的四种复杂数据类型:数组,映射,结构体,联合体。

数据类型转换

在这里插入图片描述

  • 13
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ayu阿予

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值