crontab创建定时任务执行mapreduce，并将输出Load到数据库

最新推荐文章于 2023-04-18 10:08:52 发布

KingBoxing

最新推荐文章于 2023-04-18 10:08:52 发布

阅读量5.3k

点赞数 1

分类专栏： shell

本文链接：https://blog.csdn.net/aaa1117a8w5s6d/article/details/27553953

版权

shell 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

今天在执行mapreduce时特别慢，原因是在reduce函数里将计算结果直接写入数据库。10万条数据要插入1个多小时。

所以决定使用原来的方法，reduce输出到文件，然后用shell Load到mysql。

用crontab -l命令可以查看当前的任务

[root@datanode1 shell]# crontab -l
*/50 * * * * /usr/sbin/ntpdate -b asia.pool.ntp.org
30 7 * * * cd /root/hanfeng/shell; nohup sh statChannelForeign.sh &
0 8 * * * cd /root/hanfeng/shell; nohup sh termreg.sh &

termreg.sh的内容是：

#!/bin/sh
set -x
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
sh termreg2hbase.sh ${deal_date}
sh termactivecount.sh ${deal_date}
sh statTermReg.sh ${deal_date}

得到时间，然后执行三个相关shell脚本。直接看看statTermReg.sh的内容吧：

#!/bin/sh
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
hadoop fs  -rmr /user/hdfs/result/stattermreg/${deal_date}/
hadoop jar /root/hanfeng/lib/termreg.jar com.winksi.hadoop.regterminal.StatTermRegJob ${deal_date}
cd /root/hanfeng/result/stattermreg
rm -rf *
hadoop fs -get /user/hdfs/result/stattermreg/${deal_date}/part*

cat part* > result.txt

echo "DELETE FROM term_reg wHERE report_date=${deal_date} ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb

echo "LOAD DATA local INFILE 'result.txt' INTO TABLE term_reg FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (report_date,channel_code,model,
av,area_id,num) ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb;

这样生成10W条数据Load到mysql，只需要10S。

默认reduce输出的key和value之间是用\t分割的，这个可以修改

config.set("mapred.textoutputformat.separator", ",");

这样，key和value之间就是用“，”分割