百万Excel数据导入：数据一致性怎么保证？_百万数据能不能做事务-CSDN博客

本文链接：https://blog.csdn.net/qq_30939943/article/details/141952835

要在百万级别的数据导入中实现数据一致性，通常需要考虑多个层面的措施，包括事务控制、异常处理、批量操作等方面，确保数据在导入过程中不会出现丢失或数据不一致的情况。以下是如何在大规模数据导入中实现数据一致性的几个关键措施：

1. 批量操作与事务控制

在大数据量导入的过程中，批量插入是提高性能的重要手段，但每批次的数据插入都应该被包裹在事务中，以确保数据的原子性。

单批次事务：每次批量插入时，使用一个事务包裹，确保批次内所有数据要么全部成功，要么全部失败并回滚。如果某个批次的部分数据成功插入，部分失败，这会导致数据不一致。通过将每次批量插入放在事务中，可以确保每批数据的原子性。

在 processBatch() 方法中已经通过 @Transactional 注解实现了事务管理：

@Transactional(rollbackFor = Exception.class)
public void processBatch() {
    try {
        log.debug("Processing batch of size: {}", dataBatch.size());
        dataMapper.batchInsert(dataBatch);
    } catch (Exception e) {
        log.error("Failed to insert batch", e);
        throw new RuntimeException("Batch insert failed", e);
    }
}

这里使用了 @Transactional(rollbackFor = Exception.class)，确保在批量插入时，如果发生任何异常，都会回滚整个批次，避免部分数据插入成功、部分失败的情况。

2. 数据校验

在数据导入之前或批量插入之前，需要进行数据校验，避免脏数据进入数据库。导入过程中的数据一致性不仅包括事务的成功提交，还包括数据质量的保证。

数据预检查：可以在批次处理前，先检查数据的格式、合法性等。如果发现数据有问题（如格式不正确或缺失关键字段），可以提前抛出异常，避免将错误数据插入数据库。

可以在 invoke() 方法中添加数据校验逻辑，判断每条数据是否符合要求：

@Override
public void invoke(DataEntity data, AnalysisContext context) {
    // 数据校验逻辑
    if (!isValid(data)) {
        log.error("Invalid data found: {}", data);
        throw new RuntimeException("Invalid data format");
    }
    dataBatch.add(data);
    if (dataBatch.size() >= BATCH_SIZE) {
        processBatch();
        dataBatch.clear();
    }
}

private boolean isValid(DataEntity data) {
    // 验证数据格式是否正确，是否有必填字段为空等
    return data != null && data.getRequiredField() != null;
}

3. 异常处理与重试机制

在大数据量导入过程中，网络波动、数据库连接失败等情况可能导致某些批次的数据插入失败，因此必须有异常处理和重试机制来保证数据一致性。

失败重试机制：当某个批次插入失败时，可以设计一个自动重试机制。比如可以定义重试次数，如果在指定的重试次数内仍然失败，将该批数据记录下来供后续人工处理。
异常处理示例：

在 processBatch() 中可以添加重试机制：

@Transactional(rollbackFor = Exception.class)
public void processBatch() {
    int retryCount = 0;
    while (retryCount < MAX_RETRY_COUNT) {
        try {
            log.debug("Processing batch of size: {}", dataBatch.size());
            dataMapper.batchInsert(dataBatch);
            break;  // 如果成功，退出循环
        } catch (Exception e) {
            retryCount++;
            log.error("Failed to insert batch, retrying {}/{}", retryCount, MAX_RETRY_COUNT, e);
            if (retryCount >= MAX_RETRY_COUNT) {
                log.error("Batch insert failed after retries, moving to failure queue");
                // 将失败的批次保存到失败队列或记录日志以便后续处理
                saveFailedBatch(dataBatch);
                throw new RuntimeException("Batch insert failed after retries", e);
            }
        }
    }
}

4. 幂等性设计

当数据导入过程因为某些原因（如服务器重启、系统崩溃等）中断时，可能需要重新导入部分或全部数据。在这种情况下，导入过程的幂等性就变得非常重要。

幂等操作：确保多次执行相同的导入操作不会导致数据重复。如果数据已经存在，应该跳过插入，或者更新已有数据，而不是重复插入。

在进行数据库插入时，可以使用 ON DUPLICATE KEY UPDATE 或 INSERT IGNORE 等方式来确保重复数据不会重复插入。例如在 MyBatis 的批量插入语句中可以使用类似的 SQL：

INSERT INTO your_table (id, name, value)
VALUES (#{id}, #{name}, #{value})
ON DUPLICATE KEY UPDATE
value = VALUES(value)

5. 进度反馈与失败处理

对于长时间运行的导入任务，需要向用户提供实时反馈，并在任务结束后提供失败记录。

进度条：在导入过程中，通过 WebSocket 或轮询机制向用户展示导入进度。
失败记录保存：如果某些批次的数据多次重试后仍然失败，可以将这些批次记录下来，并在导入完成后向用户展示导入报告，告知失败的记录和原因，以便后续人工处理。

6. 数据库索引管理

为了提高导入性能，可以在导入前暂时禁用或删除一些不必要的索引，避免每次数据插入时都更新索引。导入完成后，再重新创建索引，确保数据检索性能。

导入前禁用索引：可以在导入数据前禁用索引，或者移除某些非关键性索引。
导入后重建索引：在数据导入完成后，再重新建立索引，确保数据完整性和查询性能。

7. 数据库连接池与JVM配置

为了处理高并发的数据库连接，确保数据库连接池（如 HikariCP）配置合理，以避免连接池耗尽。确保 JVM 的堆内存大小适当，防止 OutOfMemoryError 错误。

总结

通过批量操作和事务控制，数据校验与异常处理，幂等性设计，索引管理以及重试机制，确保大规模数据导入过程中的数据一致性。系统的健壮性与容错性也在设计中得到了考虑，这些措施能够有效地应对百万级别数据导入中的一致性问题。