场景:
本公司服务器每天会接入4类文件,通过shell脚本的wget命令去提交url获取数据源文件,从晚上的七点开始,大约到第二天的4点左右结束。数据文件生成之后,后续有流程在六点多进行调度,处理数据文件,进行处理入库等操作。
问题:
1、数据文件都是有时间标识的,如果有一个时间标识文件没有获取到,后续处理流程会报错
2、数据文件格式固定,有时可能获取乱码文件,会导致后续处理流程报错
处理:
1、数据延迟问题
由于网络问题,导致数据延迟。经研究,发现数据文件的时间段是一条连续的时间序列,
可以才有分段处理的思维,把一整天串行的数据获取,变成两三段并行的数据获取,这样可以让文件在
每天后续流程调度之前解决问题。
2、数据乱码问题
获取的数据文件是CSV格式文件,研究后发现,每个CSV文件的开头四个字节都是一样的。
可以通过jar包读取每个CSV文件的前四个字节进行乱码判断,通过则获取,不通过则把文件置空,保证后续流程可以
运行下去。
以上,两个问题都解决了。
ps:csv乱码校验包如下
http://download.csdn.net/download/tcl415829566/9968078