一 概述
Hive看上去以及实际行为都像一个关系型数据库.用户对如表和列这类术语比较熟悉,而且Hive提供的查询语言和用户之前使用过的SQL方言非常相似.不过Hive实现和使用的方式和传统的关系型数据库是非常不同的.通常,用户视图移植关系型数据库中的模式,而事实上Hive是反模式
1 、按天划分的表
按天划分表就是一种模式,其通常会在表中加入一个时间戳,例如表名为upply_2011_01_01等等.这种每天一张表的方式在数据库领域是反模式的一种方式,但是因为实际情况下数据集增长得很快,这种方式应用还是比较广泛的.
-
-
0:jdbc:hive2://hadoopmaster:10000/> CREATE TABLE supply_2011_01_02(id int,part string,quantity int);
-
OK
-
Norows affected(1.279seconds)
-
0:jdbc:hive2://hadoopmaster:10000/> CREATE TABLE supply_2011_01_03(id int,part string,quantity int);
-
OK
-
Norows affected(0.055seconds)
-
0:jdbc:hive2://hadoopmaster:10000/> CREATE TABLE supply_2011_01_04(id int,part string,quantity int);
-
OK
-
Norows affected(0.056seconds)
-
0:jdbc:hive2://hadoopmaster:10000/>
-
0:jdbc:hive2://hadoopmaster:10000/> select part,quantity supply_2011_01_02 from supply_2011_01_02
-
..................>unionall
-
..................>selectpart,quantity supply_2011_01_02fromsupply_2011_01_03
-
..................>wherequantity<4;
-
对于Hive,这种情况下应该使用分区表.Hive通过Where子句中的表达式来选择查询所需要的指定分区,这样的查询执行效率高,而且看起来清晰明了:
-
-
0:jdbc:hive2://hadoopmaster:10000/> CREATE TABLE supplybypartition (id int,part string,quantity int)
-
..................>partitionedby(dayint);
-
0:jdbc:hive2://hadoopmaster:10000/> alter table supplybypartition add partition(day=20110102);
-
OK
-
Norows affected(0.088seconds)
-
0:jdbc:hive2://hadoopmaster:10000/> alter table supplybypartition add partition(day=20110103);
-