HIVE学习笔记二精简版

最新推荐文章于 2020-08-04 11:04:41 发布

VIP文章 houxiaoqin

最新推荐文章于 2020-08-04 11:04:41 发布

阅读量428

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/houxiaoqin/article/details/48158069

版权

HIVE学习笔记精简版
学习资料：《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...

Hive中的数据可划分为如下类型：

表（Tables）类似于传统数据库中的表。表中的数据存储在HDFS目录中。Hive为用户提供了一个框架，用于访问由DDL语句创建的具有基本数据类型格式的表（或分区）。用户还可以通过定义新的序列化和去序列化方法（又称为SerDe’s）的方式提供相应的抽取器（extractors）和加载器（loaders），用以访问新数据类型格式的表。表和新数据格式的关联关系被存储在系统目录(system catalog)中，在编译和执行查询的时候被Hive自动使用。Hive还提供了默认的序列化格式，默认的格式采用了压缩和惰性去序列化。此外，Hive还支持扩展表，这些表的数据可能存储在HDFS，NFS和本地目录中。

分区（Partitions）每张表可以有1或多个分区用以划分数据，划分后的数据存放到表所在目录下的子目录中。比如，表T的数据存储在目录/wh/T，现按列ds=20090101和ctry=US对其进行划分，那么划分后的数据将会存储在目录/wh/T/ds=20090101/ctry=US中。

桶（Buckets）分区中的数据还能依次分成不同的桶，桶的划分基于表中各列的哈希值（Hash），桶做为分区目录中的一个文件存储的。

hive引入partition和bucket的概念，这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。

hive-创建分区
HIVE的分区通过在创建表时启用partition by实现，用来partition的维度并不是实际数据的某一列，具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用

where语句，形似where tablename.partition_key > a来实现。

创建含分区的表
CREATE TABLE page_view(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the pa

最低0.47元/天解锁文章

houxiaoqin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HIVE学习笔记二精简版

HIVE学习笔记精简版学习资料：《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...hive引入partition和bucket的概念，这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为
复制链接

扫一扫