HIVE学习笔记精简版
学习资料:《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...
hive引入partition和bucket的概念,这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。
hive-创建分区
HIVE的分区通过在创建表时启用partition by实现,用来partition的维度并不是实际数据的某一列,具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用
CREATE TABLE page_view(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the pa
学习资料:《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...
Hive中的数据可划分为如下类型:
分区(Partitions) 每张表可以有1或多个分区用以划分数据,划分后的数据存放到表所在目录下的子目录中。比如,表T的数据存储在目录/wh/T,现按列ds=20090101和ctry=US对其进行划分,那么划分后的数据将会存储在目录/wh/T/ds=20090101/ctry=US中。
桶(Buckets) 分区中的数据还能依次分成不同的桶,桶的划分基于表中各列的哈希值(Hash),桶做为分区目录中的一个文件存储的。
hive引入partition和bucket的概念,这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。
hive-创建分区
HIVE的分区通过在创建表时启用partition by实现,用来partition的维度并不是实际数据的某一列,具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用
where语句,形似where tablename.partition_key > a来实现。
CREATE TABLE page_view(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the pa