spring batch使用reader读数据的内存容量问题

最新推荐文章于 2025-03-26 09:03:31 发布

原创

最新推荐文章于 2025-03-26 09:03:31 发布

· 6k 阅读

38 ·

版权

本文探讨了在使用Spring Batch进行数据迁移时遇到的大内存问题，特别是当数据量达到数百万或上千万时。文章分析了JdbcCursorItemReader一次性加载所有数据可能导致的内存溢出，并推荐使用JdbcPagingItemReader进行分页读取以避免内存压力。JdbcPagingItemReader需要指定排序关键字，并要求其为唯一键约束，以确保数据完整性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Table of Contents

概述

本篇博客是记录使用spring batch做数据迁移时时遇到的一个关键问题：数据迁移量大时如何保证内存。当我们在使用spring batch时，我们必须配置三个东西: reader，processor，和writer。其中，reader用于从数据库中读数据，当数据量较小时，reader的逻辑不会对内存带来太多压力，但是当我们要去读的数据量非常大的时候，我们就不得不考虑内存等方面的问题，因为若数据量非常大，内存，执行时间等等都会受到影响。关于spring batch的基础知识和介绍请参考这篇博客：批处理框架spring batch介绍及使用。

问题是什么

在上面的内容当中我们已经提到了,我们面临的问题是数据迁移量大时的内存问题。但是这样的描述非常笼统，因此博主决定将这一部分单独拎出来说。

在学习了spring batch的知识之后我们应该很清楚的一点是，每一个spring batch的step都包含如下的部分:

即读数据，处理数据，写数据。这三个步骤里面最可能会导致内存变大问题的无疑是读数据环节。读数据作为spring batch的数据输入，是整个spring batch job的开头逻辑。

若我们的数据量不大，如只有几十万条，那我们无疑不会面临内存问题，即便一次将所有数据加载到内存当中，占的内存也不会非常多，且spring batch数据迁移的速度非常之快，几十万条的数据往往是几十秒的时间就可以迁移完成。但是当数据量变大之后，问题就不一样了。当我们的数据量达到数百万或上千万时，若一次性将所有数据全部读到内存当中，则会占据远远超出正常范围的非常大的内存。该问题示意图如下所示:

最低0.47元/天解锁文章