下午闲来无事,看了一下好久没有操作的分区表。代码这东西,长时间不写就容易生疏。
分区表是Hive的数据表中很重要的一种类型,在实际开发中应用很广,但是,由于其语法较为灵活,实际Coding时很容易出错。
于是,我将分区表的一些操作总结如下。
1、创建分区表t1,有id、day两个字段,其中day为分区字段
create table t1 (id int) partitioned by (day int);
2、将Linux本地文件中的数据加载到分区表中
load data local inpath '/home/tg/datas/f1' into table t1 partition (day=1);
3、创建一张外部表
create external table sogou (
time string,
uid string,
kw string,
rank int,
orders int,
url string
)
row format delimited
fields terminated by '\t'
location '/in/sogou';
4、加载数据到外部表sogou
load data local inpath '/home/tg/sogou.500w.utf8' into table sogou;
5、从sogou中查询5条rank数据,并将其插入到day=2的分区中
insert into table t1 partition(day=2) select rank from sogou limit 5;
6、从sogou表中查询rank=2和rank=3的数据,并将