需求:
每天会产生很多的日志文件数据,有这么一种需求:需要将每天产生的日志数据在晚上12点钟过后定时执行操作,导入到Hive表中供第二天数据分析使用。要求创建分区表,并按照日期分区。数据文件命名是以当天日期命名的,如2015-01-09.txt
一、创建分区表,以日期作为分区字段
hive> CREATE TABLE storebydate(
> name STRING,
> age INT,
> address STRING
> )
> PARTITIONED BY(date STRING)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ','
> STORED AS TEXTFILE;
OK
Time taken: 0.093 seconds
因为我测试的数据文件格式是以逗号隔开的,所以此出创建表列以逗号隔开,可以修改成你自己对应的分隔符。
二、创建脚本
#!/bin/sh
todaydate=`date -d -1days +%Y-%m-%d`
hive -e "USE hive; LOAD DATA LOCAL INPATH '/home/hadoopUser/data/test/$todaydate.txt' OVERWRITE INTO TABLE storebydate PART