使用commons-csv读取并处理大文件csv数据

使用commons-csv读取并处理大文件csv数据

commons-csv搜到的都是一次性读入所有csv行数据进内存再处理,对于大文件这样操作肯定会把内存爆掉。查阅了下源码,发现CSVParser在使用迭代器时会按行读取数据而不是一次性加载所有,实测80M大小156000+条数据的csv文件能正常读取,下面是示例。

一、导入commons-csv工具包

<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-csv</artifactId>
    <version>1.10.0</version>
</dependency>

二、编写工具类

package com.example;

import org.apache.commons.csv.CSVFormat;
import org.apache.commons.csv.CSVParser;
import org.apache.commons.csv.CSVRecord;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.function.Function;

public class CSVUtils {

    // 批量插入,单次读取数据量
    public static final int LIST_SIZE = 1000;

    /**
     * 按行读取csv文件并对csv行记录执行func操作
     *
     * @param csvFile csv文件
     * @param func    回调函数,接收List {@link CSVRecord} 对象,大小取决于 {@link CSVUtils#LIST_SIZE}
     * @throws IOException 文件IO异常
     */
    public static void readCSV(File csvFile, Function<List<CSVRecord>, ?> func) throws IOException {
        CSVFormat format = CSVFormat.Builder.create()
                .setHeader() // 读取header作为csv的key,否则CSVRecord.get(headerName)会报错
                .setSkipHeaderRecord(true) // 跳过第一行的列名,列名单独是文件的自行搜索CSVFormat构造
                .build();
        CSVParser parse = format.parse(new FileReader(csvFile));
        Iterator<CSVRecord> csvRecordIterator = parse.iterator();
        // 2023/12/08 更新:写demo时没注意,实际应当使用ConcurrentLinkedQueue同步队列保证线程安全
        List<CSVRecord> list = new ArrayList<>(LIST_SIZE);
        for (int i = 0; i < LIST_SIZE && csvRecordIterator.hasNext(); i++) {
            list.add(csvRecordIterator.next());
            if (i == LIST_SIZE - 1 && csvRecordIterator.hasNext()) {
                i = -1;
                func.apply(list); // 实际使用场景请使用线程池
                list = new ArrayList<>(LIST_SIZE);
            }
        }
        if (!list.isEmpty()) {
            func.apply(list); // 实际使用场景请使用线程池
        }
    }

}

三、调用

public boolean batchSave(List<CSVRecord> csvRecordList) {
    // 这里只演示读取字段,具体如何批量保存请参考多线程插入数据
    for (CSVRecord csvRecord : csvRecordList) {
        log.info(csvRecord.get("columnName")); // columnName: csv列名,如id
    }
    return true;
}
// 调用
public void loadCSV() throws IOException {
    ClassPathResource csvResource = new ClassPathResource("CSV_FILE_PATH"); // CSV_FILE_PATH: csv文件路径
    CSVUtils.readCSV(csvResource.getFile(), this::batchSave);
}
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
commons-csv-1.8.jar是一个JavaCSV文件处理库。CSV(逗号分隔值)是一种常见的文件格式,用于存储和传输表格数据。它将每行数据存储为逗号分隔的数值或字符串字段。 commons-csv-1.8.jar提供了一组功能强大的API,用于读取、写入和操作CSV文件。它可以帮助用户轻松地处理CSV文件,无需手动解析每个字段并进行操作。这个库具有高度的灵活性和可扩展性,可以适应各种不同的CSV文件格式和需求。 在读取CSV文件方面,commons-csv-1.8.jar可以解析整个文件并将其转换为可操作的数据结构,例如列表或映射。它可以处理包含标题行的文件,并根据需要跳过或读取特定的列。此外,它还可以处理包含引号或转义字符的字段,并正确解析其中的逗号。 在写入CSV文件方面,commons-csv-1.8.jar提供了一种简单且灵活的方式来生成CSV文件。它可以将数据结构(例如列表或映射)转换为CSV格式,并将其写入文件或输出流。用户可以定义字段分隔符、引号字符和换行符等设置,以满足特定的文件格式要求。 commons-csv-1.8.jar还可以对CSV文件进行一些高级操作,例如按条件过滤数据、排序、聚合和组合不同的CSV文件等。它还支持通过自定义解析器、格式化器和转换器来处理特殊的数据需求。 总而言之,commons-csv-1.8.jar是一个功能强大且易于使用Java库,可以帮助用户有效地读取、写入和操作CSV文件。无论是处理小型还是大型的CSV文件,它都可以提供高效和可靠的解决方案。无论是在数据处理数据分析、数据导入/导出还是与其他系统的集成等方面,它都是一个非常有用的工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值