crontab创建定时任务执行mapreduce,并将输出Load到数据库

今天在执行mapreduce时特别慢,原因是在reduce函数里将计算结果直接写入数据库。10万条数据要插入1个多小时。

所以决定使用原来的方法,reduce输出到文件,然后用shell Load到mysql。

用crontab -l命令可以查看当前的任务

[root@datanode1 shell]# crontab -l
*/50 * * * * /usr/sbin/ntpdate -b asia.pool.ntp.org
30 7 * * * cd /root/hanfeng/shell; nohup sh statChannelForeign.sh &
0 8 * * * cd /root/hanfeng/shell; nohup sh termreg.sh &

termreg.sh的内容是:

#!/bin/sh
set -x
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
sh termreg2hbase.sh ${deal_date}
sh termactivecount.sh ${deal_date}
sh statTermReg.sh ${deal_date}

得到时间,然后执行三个相关shell脚本。直接看看statTermReg.sh的内容吧:

#!/bin/sh
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
hadoop fs  -rmr /user/hdfs/result/stattermreg/${deal_date}/
hadoop jar /root/hanfeng/lib/termreg.jar com.winksi.hadoop.regterminal.StatTermRegJob ${deal_date}
cd /root/hanfeng/result/stattermreg
rm -rf *
hadoop fs -get /user/hdfs/result/stattermreg/${deal_date}/part*

cat part* > result.txt

echo "DELETE FROM term_reg wHERE report_date=${deal_date} ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb

echo "LOAD DATA local INFILE 'result.txt' INTO TABLE term_reg FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (report_date,channel_code,model,
av,area_id,num) ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb;

这样生成10W条数据Load到mysql,只需要10S。

默认reduce输出的key和value之间是用\t分割的,这个可以修改

config.set("mapred.textoutputformat.separator", ",");

这样,key和value之间就是用“,”分割

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值