Java向mysql导入大量scv文件数据（100万行以上）

飞鱼同学

已于 2022-04-08 21:44:43 修改

阅读量506

点赞数 1

分类专栏： Java&框架&中间件文章标签： java mysql 数据库

于 2021-09-10 18:34:20 首次发布

原文链接：https://blog.csdn.net/weixin_43687353/article/details/107064050

版权

Java&框架&中间件专栏收录该内容

10 篇文章 1 订阅

订阅专栏

项目场景：

同步数据：将一个系统中的数据导出之后通过定时任务导入到另一个数据库中

问题描述：

定时任务将约100万行数据导入mysql，调试了好久，大多是关于 JVM 的问题，最后通过每1万条插入一次解决，具体上限多少条就报错没有测试，与电脑性能有关

分批次导入代码：

分次持久化, 避免内存溢出

   /**
     * 导入文件
     * @param filePath 读取的文件路径
     * @param size 读取多少条持久化一次
     */
    public void importFile(String filePath, Integer size) throws IOException, ParseException {
        InputStreamReader isr = new InputStreamReader(new FileInputStream(filePath), "UTF-8");
        BufferedReader br = new BufferedReader(isr,5*1024*1024);// 用5M的缓冲读取文本文件
        List<String> list = new ArrayList<>(1024);
        int count = 0;
        String line = null;
        //跳过标题
        String title = br.readLine();
        //读取文本
        while ((line = br.readLine()) != null) {
            //一行数据
            String[] arr = line.split(",");
            //组装实体数据
            list.add(arr[0]);
            if (list.size() >= size){
                count++;
                //调用批量插入
                //service.batchInsert(list);
                log.info("数据列表长度: " + list.size());
                log.info("持久化: " + count + "次");
                list.clear();//清空list, 释放引用对象, 避免内存溢出
            }
        }
        if (list.size() > 0){
            count++;
            //调用批量插入
            //service.batchInsert(list);
            log.info("数据列表长度: " + list.size());
            log.info("持久化最后一次: " + count);
            //list.clear();
        }
    }

文件拆分导入代码：

给定带拆分数量，计算出每个文件的平均字节数，然后循环文件数进行每个文件的拆分。拆分第一个文件时，根据平均字节数往后取给定的大约行字节数的字节，然后循环字节判断是否为\r或者\n，如果字节为\r或者\n则代表到达行末尾，记录行尾字节位置。知道了开头字节位置与结束字节位置，就可以将此位置之间的数据生成子文件了。继续循环拆分下个文件，基于上个文件记录的结束字节位置继续计算当前文件的结束位置，直到到达拆分文件的数量或者大文件读取完毕。

   /**
     * 拆分大文件
     * fileCount 拆分的文件个数
     */
    public static void splitFile(String filePath, int fileCount) throws IOException {
        FileInputStream fis = new FileInputStream(filePath);
        FileChannel inputChannel = fis.getChannel();
        final long fileSize = inputChannel.size();
        long average = fileSize / fileCount;//平均值
        long bufferSize = 200; //缓存块大小，自行调整
        ByteBuffer byteBuffer = ByteBuffer.allocate(Integer.valueOf(bufferSize + "")); // 申请一个缓存区
        long startPosition = 0; //子文件开始位置
        long endPosition = average < bufferSize ? 0 : average - bufferSize;//子文件结束位置
        for (int i = 0; i < fileCount; i++) {
            if (i + 1 != fileCount) {
                int read = inputChannel.read(byteBuffer, endPosition);// 读取数据
                readW:
                while (read != -1) {
                    byteBuffer.flip();//切换读模式
                    byte[] array = byteBuffer.array();
                    for (int j = 0; j < array.length; j++) {
                        byte b = array[j];
                        if (b == 10 || b == 13) { //判断\n\r
                            endPosition += j;
                            break readW;
                        }
                    }
                    endPosition += bufferSize;
                    byteBuffer.clear(); //重置缓存块指针
                    read = inputChannel.read(byteBuffer, endPosition);
                }
            }else{
                endPosition = fileSize; //最后一个文件直接指向文件末尾
            }

            FileOutputStream fos = new FileOutputStream(filePath + (i + 1));
            FileChannel outputChannel = fos.getChannel();
            inputChannel.transferTo(startPosition, endPosition - startPosition, outputChannel);//通道传输文件数据
            outputChannel.close();
            fos.close();
            startPosition = endPosition + 1;
            endPosition += average;
        }
        inputChannel.close();
        fis.close();
    }

飞鱼同学

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java向mysql导入大量scv文件数据（100万行以上）

项目场景：同步数据：将一个系统中的数据导出之后通过定时任务导入到另一个数据库中问题描述：定时任务将约100万行数据导入mysql，调试了好久，大多是关于 JVM 的问题，最后通过每1万条插入一次解决，具体上限多少条就报错没有测试，与电脑性能有关分批次导入代码：分次持久化, 避免内存溢出 /** * 导入文件 * @param filePath 读取的文件路径 * @param size 读取多少条持久化一次 */ public void im
复制链接

扫一扫