今天在执行mapreduce时特别慢,原因是在reduce函数里将计算结果直接写入数据库。10万条数据要插入1个多小时。
所以决定使用原来的方法,reduce输出到文件,然后用shell Load到mysql。
用crontab -l命令可以查看当前的任务
[root@datanode1 shell]# crontab -l
*/50 * * * * /usr/sbin/ntpdate -b asia.pool.ntp.org
30 7 * * * cd /root/hanfeng/shell; nohup sh statChannelForeign.sh &
0 8 * * * cd /root/hanfeng/shell; nohup sh termreg.sh &
termreg.sh的内容是:
#!/bin/sh
set -x
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
sh termreg2hbase.sh ${deal_date}
sh termactivecount.sh ${deal_date}
sh statTermReg.sh ${deal_date}
得到时间,然后执行三个相关shell脚本。直接看看statTermReg.sh的内容吧:
#!/bin/sh
deal_date=${1:-`date --date '1 days ago' +%Y%m%d`}
hadoop fs -rmr /user/hdfs/result/stattermreg/${deal_date}/
hadoop jar /root/hanfeng/lib/termreg.jar com.winksi.hadoop.regterminal.StatTermRegJob ${deal_date}
cd /root/hanfeng/result/stattermreg
rm -rf *
hadoop fs -get /user/hdfs/result/stattermreg/${deal_date}/part*
cat part* > result.txt
echo "DELETE FROM term_reg wHERE report_date=${deal_date} ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb
echo "LOAD DATA local INFILE 'result.txt' INTO TABLE term_reg FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (report_date,channel_code,model,
av,area_id,num) ;" | mysql -h172.16.1.81 -P3308 -uadmin -ptonggangdasha reportdb;
这样生成10W条数据Load到mysql,只需要10S。
默认reduce输出的key和value之间是用\t分割的,这个可以修改
config.set("mapred.textoutputformat.separator", ",");
这样,key和value之间就是用“,”分割