一、应用场景
在银行、电信等一些大型的企业应用上,经常需要处理大批量的数据。比如,银行的交易流水文件的处理等。这些大批量数据的处理有一些共同点,从文件或数据库中读取数据,进行加工处理,再写入到文件或数据库中。Spring Batch 正是完成这样的功能。Spring Batch 的出现,让我们可以专注业务编程,而不去关心批量如何执行。
Spring Batch 的主要功能:
1、与quartz整合,实现定时批任务处理;当然,spring batch 内部也有集成调度框架,不过没有quartz强大。
2、可以并行处理批任务;
3、可以按顺序定义相关的处理步骤;
4、支持事务;
5、支持对批任务的失败重试;
.......
二、基本架构
官网上,spring batch 的架构图如下:
简单点说,JobRepository 用于存放批处理的结果,不管成功或者 失败,都会保存在JobRepository 中。JobRepository 可以是内存,也可以是数据库。
而JobLauncher则用于启动一个批任务。
Job、step需要程序员自己定义,一个job可以有多个step,而一个step下,又分别包含一个ItemReader、ItemProcessor、ItemWriter,这三个接口用于读取文件(或数据库)、处理读取的内容(对数据进行加工)、处理后的写入操作(可以简单打印,也可以进行持久化)。
有些简单的批处理任务,可以不要中间的ItemProcessor,这表示读取到的文件可以直接给ItemWriter进行输出或持久化。
下面用一个简单的小程序展示以上这几个类及接口的使用。
三、入门程序
以下展示一个Spring Batch 的简易程序。主要的业务场景是:从文件中读取出学生的信息,根据学生的成绩生成学生的成绩等级,然后打印输出。
项目的目录结构如下:
主要的java类介绍:
其中Bootstrap 是启动类,Student是学生pojo类,StudentProcessor是处理学生信息的处理器类,StudentWriter 是输出学习信息的类。
下面是源代码及解析。
1、首先,配置一个批处理的上下文job-context.xml,配置一个jobRepository,以及jobLauncher。transactionManager 是一个事务管理器。
<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-4.2.xsd">
<!--
JobRepository存储执行期的元数据,提供两种默认实现,一种是存放在内存中,默认实现类为:MapJobRepositoryFactoryBean(即下面的配置)、
另一种是存入数据库中,可以随时监控批处理Job的执行状态,查看Job执行结果是成功还是失败,并且使得在Job失败的情况下重新启动Job成为可能。
-->
<bean id="jobRepository" class="org.springframework.batch.core.repository.support.MapJobRepositoryFactoryBean"></bean>
<bean id="jobLauncher" class="org.springframework.batch.core.launch.support.SimpleJobLauncher">
<property name="jobRepository" ref="jobRepository"></property>
</bean>
<bean id="transactionManager" class="org.springframework.batch.support.transaction.ResourcelessTransactionManager"/>
</beans