Hive 实战练习(一)—按照日期将每天的数据导入Hive表中

本文介绍了如何将每天产生的日志数据在每天凌晨12点导入到Hive分区表中,用于第二天的数据分析。首先,创建一个以日期为分区字段的Hive表,接着编写处理前一天数据的脚本,并通过Hive -e命令执行HQL语句。最后,使用crontab实现脚本的定时执行。
摘要由CSDN通过智能技术生成

需求:

         每天会产生很多的日志文件数据,有这么一种需求:需要将每天产生的日志数据在晚上12点钟过后定时执行操作,导入到Hive表中供第二天数据分析使用。要求创建分区表,并按照日期分区。数据文件命名是以当天日期命名的,如2015-01-09.txt

一、创建分区表,以日期作为分区字段

hive> CREATE TABLE storebydate(
    >    name STRING,
    >    age  INT,
    >    address STRING
    > )
    > PARTITIONED BY(date STRING)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY ','
    > STORED AS TEXTFILE;
OK
Time taken: 0.093 seconds

         因为我测试的数据文件格式是以逗号隔开的,所以此出创建表列以逗号隔开,可以修改成你自己对应的分隔符。

二、创建脚本

#!/bin/sh

todaydate=`date -d -1days +%Y-%m-%d`

hive -e "USE hive; LOAD DATA LOCAL INPATH '/home/hadoopUser/data/test/$todaydate.txt' OVERWRITE INTO TABLE storebydate PART
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值