数据接入处理(数据源文件乱码)

场景:

本公司服务器每天会接入4类文件,通过shell脚本的wget命令去提交url获取数据源文件,从晚上的七点开始,大约到第二天的4点左右结束。数据文件生成之后,后续有流程在六点多进行调度,处理数据文件,进行处理入库等操作。

问题:

1、数据文件都是有时间标识的,如果有一个时间标识文件没有获取到,后续处理流程会报错

2、数据文件格式固定,有时可能获取乱码文件,会导致后续处理流程报错

处理:

1、数据延迟问题

由于网络问题,导致数据延迟。经研究,发现数据文件的时间段是一条连续的时间序列,

可以才有分段处理的思维,把一整天串行的数据获取,变成两三段并行的数据获取,这样可以让文件在

每天后续流程调度之前解决问题。

2、数据乱码问题

获取的数据文件是CSV格式文件,研究后发现,每个CSV文件的开头四个字节都是一样的。

可以通过jar包读取每个CSV文件的前四个字节进行乱码判断,通过则获取,不通过则把文件置空,保证后续流程可以

运行下去。


以上,两个问题都解决了。


ps:csv乱码校验包如下

http://download.csdn.net/download/tcl415829566/9968078

csv乱校验包下载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值