在hive中 创建一个表:
create external table track_info(
ip string,
country string,
province string,
city string,
url string,
time string,
page string
) partitioned by (day string)
row format delimited fields terminated by '\t'
location '/project/trackinfo/';
从HDFS中导入数据:load data inpath 'hdfs://swarm-worker1:9000/project/input/etl' overwrite into table track_info partition(day='2013-07-21');
因为我们使用分区,所以需要指定partition(day='2013-07-21')
。
然后查看HDFS中的数据:
发现会自动根据我们的分区字段作为我们的目录,进入到目录day=2013-07-21
:
执行查询时,可以指定分区:
select count(1) from track_info where day='2013-07-21';
这就会生成一个mapreduce运行。