在定时任务crontab 配置调用shell脚本,脚本在客户端测试无误。
脚本1任务:远程在S3下载复制数据到HDFS,调用Spark集群分析分布式文件系统的数据输出到HDFS,调用hive加载分析完成的数据到特定的表。
异常现象:提示缺少hive的执行jar包。
脚本2任务:下载服务器日志数据到固定机器,在本地机器多线程清洗数据,完成之后load到HDFS。
异常现象:spark分析完成加载到分布式文件系统的目录变成了文件夹。
问题原因:由于定时任务调用时没有加载用户的环境变量导致的环境目录异常,从而产生各种异常。
解决方法:30 16 * * * source ~/.bashrc; /home/hadoop/demo.sh