HIVE学习笔记 二 精简版

HIVE学习笔记精简版
学习资料:《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...

Hive中的数据可划分为如下类型:


表(Tables) 类似于传统数据库中的表。表中的数据存储在HDFS目录中。Hive为用户提供了一个框架,用于访问由DDL语句创建的具有基本数据类型格式的表(或分区)。用户还可以通过定义新的序列化和去序列化方法(又称为SerDe’s)的方式提供相应的抽取器(extractors)和加载器(loaders),用以访问新数据类型格式的表。表和新数据格式的关联关系被存储在系统目录(system catalog)中,在编译和执行查询的时候被Hive自动使用。Hive还提供了默认的序列化格式,默认的格式采用了压缩和惰性去序列化。此外,Hive还支持扩展表,这些表的数据可能存储在HDFS,NFS和本地目录中。


分区(Partitions) 每张表可以有1或多个分区用以划分数据,划分后的数据存放到表所在目录下的子目录中。比如,表T的数据存储在目录/wh/T,现按列ds=20090101和ctry=US对其进行划分,那么划分后的数据将会存储在目录/wh/T/ds=20090101/ctry=US中。


桶(Buckets) 分区中的数据还能依次分成不同的桶,桶的划分基于表中各列的哈希值(Hash),桶做为分区目录中的一个文件存储的。



hive引入partition和bucket的概念,这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。


hive-创建分区
HIVE的分区通过在创建表时启用partition by实现,用来partition的维度并不是实际数据的某一列,具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用

where语句,形似where tablename.partition_key > a来实现。


创建含分区的表
CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the pa
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值