工作笔记：记一次CSV数据导入

井蛙说海夏虫语冰

已于 2024-07-22 16:58:15 修改

阅读量233

点赞数 1

文章标签：笔记数据库 java

于 2024-07-12 14:33:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_31707781/article/details/140378356

版权

背景：小方需要将脱敏后的生产数据拉下来用于验证数据统计问题，先导出了csv文件，在使用DBeaver导入测试库的时候出现了问题（小方是新手，没有其他的方式可以使用，内外网访问有较严格的控制）

问题1.数据比较多，大概300w+，csv文件单个最大150M

解决：拆分CSV 使用java方式

public static void splitCSV(String inputFile, String outputDirectory, int splitSize) throws IOException {
        File input = new File(inputFile);
        File dir = new File(outputDirectory);
        if (!dir.exists()) {
            dir.mkdirs();
        }
        BufferedReader br = new BufferedReader(new FileReader(input));
        String line;
        int count = 0;
        File output = null;
        BufferedWriter bw = null;
        while ((line = br.readLine()) != null) {
            if (count % splitSize == 0) {
                if (bw != null) {
                    bw.close();
                }
                output = new File(outputDirectory, "part-" + (count / splitSize) + ".csv");
                bw = new BufferedWriter(new FileWriter(output));
            }
            bw.write(line);
            bw.newLine();
            count++;
        }
        if (bw != null) {
            bw.close();
        }
        br.close();
    }

问题2.数据库是UTF-8的编码，导入库后查出来中文是乱码

解决：使用notepad++类似工具打开csv文件后，另存为指定格式。

问题3.数据导入的时候异常错误导致中断，提示错误信息有限

解决：DBeaver中只能看到大概的java报错，我采取的使用中间表，原数据的id单独保存，采用倒查模式，看最后倒入的一条的id，定位后去检查时最后一条的问题还是未导入的那一条导致的问题，修整数据。

ps:发现有转义符导致数据未封口，引号不规范，保存的文本中有提前导致字符串被截取等等问题；DBeaver能用高版本的就用高版本的，支持比较完善，比如这种导入任务可以保存，不用每次都去新建任务，同时报错信息较明确

问题4.如何快速找到异常的数据

解决：使用中间表，将源数据的id原样迁移，这样通过找到每次报错时，最后一条成功入库的数据的id，再使用notepa类工具（千万不要用办公软件，超级慢，而且会格式化显示，干扰判断）。实践发现一般是最后保存成功的那条数据没有正确结束，导致把后面n行的数据当做一个字段导入，如果n较小，会提示空指针，如果n较大或者里面的字符比较多，会提示数据超长。导入中间表后再迁移到目标表会比较快，同时DBeaver导入CSV支持每次导入前truncate表，如果使用中间表，每次的迁移耗时会相交直接使用目标表速度快。

综述：下次谁他么接这种活儿谁是狗，旺！旺！旺！

后记：测试环境访问导入的数据时会出现很多JSON解析错误，CSV的缺点可能是没办法很好处理这种json数据，字符串转义不完整，导致数据无法被解析，后续还是进行了批量替换才正常，如果有其他更好的方式，不建议使用csv导出此类数据。

井蛙说海夏虫语冰

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。