工作笔记:记一次CSV数据导入

背景:小方需要将脱敏后的生产数据拉下来用于验证数据统计问题,先导出了csv文件,在使用DBeaver导入测试库的时候出现了问题(小方是新手,没有其他的方式可以使用,内外网访问有较严格的控制)
问题1.数据比较多,大概300w+,csv文件单个最大150M
解决:拆分CSV 使用java方式
public static void splitCSV(String inputFile, String outputDirectory, int splitSize) throws IOException {
        File input = new File(inputFile);
        File dir = new File(outputDirectory);
        if (!dir.exists()) {
            dir.mkdirs();
        }
        BufferedReader br = new BufferedReader(new FileReader(input));
        String line;
        int count = 0;
        File output = null;
        BufferedWriter bw = null;
        while ((line = br.readLine()) != null) {
            if (count % splitSize == 0) {
                if (bw != null) {
                    bw.close();
                }
                output = new File(outputDirectory, "part-" + (count / splitSize) + ".csv");
                bw = new BufferedWriter(new FileWriter(output));
            }
            bw.write(line);
            bw.newLine();
            count++;
        }
        if (bw != null) {
            bw.close();
        }
        br.close();
    }
问题2.数据库是UTF-8的编码,导入库后查出来中文是乱码
解决:使用notepad++类似工具打开csv文件后,另存为指定格式。
问题3.数据导入的时候异常错误导致中断,提示错误信息有限
解决:DBeaver中只能看到大概的java报错,我采取的使用中间表,原数据的id单独保存,采用倒查模式,看最后倒入的一条的id,定位后去检查时最后一条的问题还是未导入的那一条导致的问题,修整数据。
ps:发现有转义符导致数据未封口,引号不规范,保存的文本中有提前导致字符串被截取 等等问题;DBeaver能用高版本的就用高版本的,支持比较完善,比如这种导入任务可以保存,不用每次都去新建任务,同时报错信息较明确
问题4.如何快速找到异常的数据
解决:使用中间表,将源数据的id原样迁移,这样通过找到每次报错时,最后一条成功入库的数据的id,再使用notepa类工具(千万不要用办公软件,超级慢,而且会格式化显示,干扰判断)。实践发现一般是最后保存成功的那条数据没有正确结束,导致把后面n行的数据当做一个字段导入,如果n较小,会提示空指针,如果n较大或者里面的字符比较多,会提示数据超长。导入中间表后再迁移到目标表会比较快,同时DBeaver导入CSV支持每次导入前truncate表,如果使用中间表,每次的迁移耗时会相交直接使用目标表速度快。

综述:下次谁他么接这种活儿谁是狗,旺!旺!旺!

后记:测试环境访问导入的数据时会出现很多JSON解析错误,CSV的缺点可能是没办法很好处理这种json数据,字符串转义不完整,导致数据无法被解析,后续还是进行了批量替换才正常,如果有其他更好的方式,不建议使用csv导出此类数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值