【背景】
本次项目需要定时传输Hadoop的结果集,需要先使用Hive命令进行分组统计,再执行相应文件命令,随后使用FTP传输,再三考虑还是使用Shell脚本 比较方便,但是因为之前没有与hive配合使用,这次做个记录
【难点】
1.交互的问题
因为hive需要使用数据库,问题就在于最初不知道HIVE有交互模式,想着借用expect工具来进行命令交互,后面了解后hive有个交互模式,就可以直接解决这个问题了:
把需要执行的hql单独保存成文件,然后通过linux的命令行执行
hive -f hive-script.sql
hive-script.sql如下:
use xxxxdb;
INSERT OVERWRITE LOCAL DIRECTORY "/opt/yj/UserSync/originaldata/" select log_date," ",userid from xxxxxxxxx where status in (0,1,2) and oldstatus='3' or oldstatus is null and sysid='t' and log_date=${hiveconf:calc_day} ;
2.参数传值的问题
本次项目使用到的参数就是日期,参数传递方式如下,通过命令来传参,特别要注意在hql里面取值的方式比较特殊
hive -hiveconf calc_day=$calc_day -f GetUserData.sql
INSERT OVERWRITE LOCAL DIRECTORY "/opt/yj/UserSync/originaldata/" select log_date," ",userid from xxxxxxxxx where status in (0,1,2) and oldstatus='3' or oldstatus is null and sysid='t' and log_date=${hiveconf:calc_day} ;