Springboot 整合 spring batch 实现批处理 ,小白文实例讲解

}

JobLauncher

写在MyBatchConfig类里

/**

  • jobLauncher定义: job的启动器,绑定相关的jobRepository

  • @param dataSource

  • @param transactionManager

  • @return

  • @throws Exception

*/

@Bean

public SimpleJobLauncher myJobLauncher(DataSource dataSource, PlatformTransactionManager transactionManager) throws Exception{

SimpleJobLauncher jobLauncher = new SimpleJobLauncher();

// 设置jobRepository

jobLauncher.setJobRepository(myJobRepository(dataSource, transactionManager));

return jobLauncher;

}

Job

写在MyBatchConfig类里

/**

  • 定义job

  • @param jobs

  • @param myStep

  • @return

*/

@Bean

public Job myJob(JobBuilderFactory jobs, Step myStep){

return jobs.get(“myJob”)

.incrementer(new RunIdIncrementer())

.flow(myStep)

.end()

.listener(myJobListener())

.build();

}

对于Job的运行,是可以配置监听器的

JobListener

写在MyBatchConfig类里

/**

  • 注册job监听器

  • @return

*/

@Bean

public MyJobListener myJobListener(){

return new MyJobListener();

}

这是一个我们自己自定义的监听器,所以是单独创建的,MyJobListener.java:

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/17

  • @Description :监听Job执行情况,实现JobExecutorListener,且在batch配置类里,Job的Bean上绑定该监听器

**/

public class MyJobListener implements JobExecutionListener {

private Logger logger = LoggerFactory.getLogger(MyJobListener.class);

@Override

public void beforeJob(JobExecution jobExecution) {

logger.info(“job 开始, id={}”,jobExecution.getJobId());

}

@Override

public void afterJob(JobExecution jobExecution) {

logger.info(“job 结束, id={}”,jobExecution.getJobId());

}

}

Step(ItemReader   ItemProcessor   ItemWriter)

step里面包含数据读取器,数据处理器,数据输出器三个小组件的的实现。

我们也是一个个拆解来进行编写。

文章前边说到,该篇实现的场景包含两种,一种是从csv文件读入大量数据进行处理,另一种是从数据库表读入大量数据进行处理。

从CSV文件读取数据

ItemReader

写在MyBatchConfig类里

/**

  • ItemReader定义:读取文件数据+entirty实体类映射

  • @return

*/

@Bean

public ItemReader reader(){

// 使用FlatFileItemReader去读cvs文件,一行即一条数据

FlatFileItemReader reader = new FlatFileItemReader<>();

// 设置文件处在路径

reader.setResource(new ClassPathResource(“static/bloginfo.csv”));

// entity与csv数据做映射

reader.setLineMapper(new DefaultLineMapper() {

{

setLineTokenizer(new DelimitedLineTokenizer() {

{

setNames(new String[]{“blogAuthor”,“blogUrl”,“blogTitle”,“blogItem”});

}

});

setFieldSetMapper(new BeanWrapperFieldSetMapper() {

{

setTargetType(BlogInfo.class);

}

});

}

});

return reader;

}

简单代码解析:

对于数据读取器 ItemReader ,我们给它安排了一个读取监听器,创建 MyReadListener.java :

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/17

  • @Description :

**/

public class MyReadListener implements ItemReadListener {

private Logger logger = LoggerFactory.getLogger(MyReadListener.class);

@Override

public void beforeRead() {

}

@Override

public void afterRead(BlogInfo item) {

}

@Override

public void onReadError(Exception ex) {

try {

logger.info(format(“%s%n”, ex.getMessage()));

} catch (Exception e) {

e.printStackTrace();

}

}

}

ItemProcessor

写在MyBatchConfig类里

/**

  • 注册ItemProcessor: 处理数据+校验数据

  • @return

*/

@Bean

public ItemProcessor<BlogInfo, BlogInfo> processor(){

MyItemProcessor myItemProcessor = new MyItemProcessor();

// 设置校验器

myItemProcessor.setValidator(myBeanValidator());

return myItemProcessor;

}

数据处理器,是我们自定义的,里面主要是包含我们对数据处理的业务逻辑,并且我们设置了一些数据校验器,我们这里使用

JSR-303的Validator来作为校验器。

校验器

写在MyBatchConfig类里

/**

  • 注册校验器

  • @return

*/

@Bean

public MyBeanValidator myBeanValidator(){

return new MyBeanValidator();

}

创建MyItemProcessor.java :

ps: 里面我的数据处理逻辑是,获取出读取数据里面的每条数据的blogItem字段,如果是springboot,那就对title字段值进行替换。

其实也就是模拟一个简单地数据处理场景。

import com.example.batchdemo.pojo.BlogInfo;

import org.springframework.batch.item.validator.ValidatingItemProcessor;

import org.springframework.batch.item.validator.ValidationException;

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/17

  • @Description :

**/

public class MyItemProcessor extends ValidatingItemProcessor {

@Override

public BlogInfo process(BlogInfo item) throws ValidationException {

/**

  • 需要执行super.process(item)才会调用自定义校验器

*/

super.process(item);

/**

  • 对数据进行简单的处理

*/

if (item.getBlogItem().equals(“springboot”)) {

item.setBlogTitle(“springboot 系列还请看看我Jc”);

} else {

item.setBlogTitle(“未知系列”);

}

return item;

}

}

创建MyBeanValidator.java:

import org.springframework.batch.item.validator.ValidationException;

import org.springframework.batch.item.validator.Validator;

import org.springframework.beans.factory.InitializingBean;

import javax.validation.ConstraintViolation;

import javax.validation.Validation;

import javax.validation.ValidatorFactory;

import java.util.Set;

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/2017

  • @Description :

**/

public class MyBeanValidator implements Validator, InitializingBean {

private javax.validation.Validator validator;

@Override

public void validate(T value) throws ValidationException {

/**

  • 使用Validator的validate方法校验数据

*/

Set<ConstraintViolation> constraintViolations =

validator.validate(value);

if (constraintViolations.size() > 0) {

StringBuilder message = new StringBuilder();

for (ConstraintViolation constraintViolation : constraintViolations) {

message.append(constraintViolation.getMessage() + “\n”);

}

throw new ValidationException(message.toString());

}

}

/**

  • 使用JSR-303的Validator来校验我们的数据,在此进行JSR-303的Validator的初始化

  • @throws Exception

*/

@Override

public void afterPropertiesSet() throws Exception {

ValidatorFactory validatorFactory =

Validation.buildDefaultValidatorFactory();

validator = validatorFactory.usingContext().getValidator();

}

}

ps:其实该篇文章没有使用这个数据校验器,大家想使用的话,可以在实体类上添加一些校验器的注解@NotNull @Max @Email等等。我偏向于直接在处理器里面进行处理,想把关于数据处理的代码都写在一块。

ItemWriter

写在MyBatchConfig类里

/**

  • ItemWriter定义:指定datasource,设置批量插入sql语句,写入数据库

  • @param dataSource

  • @return

*/

@Bean

public ItemWriter writer(DataSource dataSource){

// 使用jdbcBcatchItemWrite写数据到数据库中

JdbcBatchItemWriter writer = new JdbcBatchItemWriter<>();

// 设置有参数的sql语句

writer.setItemSqlParameterSourceProvider(new BeanPropertyItemSqlParameterSourceProvider());

String sql = "insert into bloginfo “+” (blogAuthor,blogUrl,blogTitle,blogItem) "

+" values(:blogAuthor,:blogUrl,:blogTitle,:blogItem)";

writer.setSql(sql);

writer.setDataSource(dataSource);

return writer;

}

简单代码解析:

同样 对于数据读取器 ItemWriter ,我们给它也安排了一个输出监听器,创建 MyWriteListener.java:

import com.example.batchdemo.pojo.BlogInfo;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import org.springframework.batch.core.ItemWriteListener;

import java.util.List;

import static java.lang.String.format;

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/17

  • @Description :

**/

public class MyWriteListener implements ItemWriteListener {

private Logger logger = LoggerFactory.getLogger(MyWriteListener.class);

@Override

public void beforeWrite(List<? extends BlogInfo> items) {

}

@Override

public void afterWrite(List<? extends BlogInfo> items) {

}

@Override

public void onWriteError(Exception exception, List<? extends BlogInfo> items) {

try {

logger.info(format(“%s%n”, exception.getMessage()));

for (BlogInfo message : items) {

logger.info(format(“Failed writing BlogInfo : %s”, message.toString()));

}

} catch (Exception e) {

e.printStackTrace();

}

}

}

ItemReader   ItemProcessor   ItemWriter

这三个小组件到这里,我们都实现了,那么接下来就是把这三个小组件跟我们的step去绑定起来。

写在MyBatchConfig类里

/**

  • step定义:

  • 包括

  • ItemReader 读取

  • ItemProcessor 处理

  • ItemWriter 输出

  • @param stepBuilderFactory

  • @param reader

  • @param writer

  • @param processor

  • @return

*/

@Bean

public Step myStep(StepBuilderFactory stepBuilderFactory, ItemReader reader,

ItemWriter writer, ItemProcessor<BlogInfo, BlogInfo> processor){

return stepBuilderFactory

.get(“myStep”)

.<BlogInfo, BlogInfo>chunk(65000) // Chunk的机制(即每次读取一条数据,再处理一条数据,累积到一定数量后再一次性交给writer进行写入操作)

.reader(reader).faultTolerant().retryLimit(3).retry(Exception.class).skip(Exception.class).skipLimit(2)

.listener(new MyReadListener())

.processor(processor)

.writer(writer).faultTolerant().skip(Exception.class).skipLimit(2)

.listener(new MyWriteListener())

.build();

}

这个Step,稍作讲解。

前边提到了,spring batch框架,提供了事务的控制,重启,检测跳过等等机制。

那么,这些东西的实现,很多都在于这个step环节的设置。

首先看到我们代码出现的第一个设置,

chunk( 6500 )

Chunk的机制(即每次读取一条数据,再处理一条数据,累积到一定数量后再一次性交给writer进行写入操作。

没错,对于整个step环节,就是数据的读取,处理最后到输出。

这个chunk机制里,我们传入的 6500,也就是是告诉它,读取处理数据,累计达到 6500条进行一次批次处理,去执行写入操作。

这个传值,是根据具体业务而定,可以是500条一次,1000条一次,也可以是20条一次,50条一次。

通过一张简单的小图来帮助理解:

在我们大量数据处理,不管是读取或者说是写入,都肯定会涉及到一些未知或者已知因素导致某条数据失败了。

那么如果说咱们啥也不设置,失败一条数据,那么我们就当作整个失败了?。显然这个太不人性,所以spring batch 提供了 retry 和 skip 两个设置(其实还有restart) ,通过这两个设置来人性化地解决一些数据操作失败场景。

retryLimit(3).retry(Exception.class)

没错,这个就是设置重试,当出现异常的时候,重试多少次。我们设置为3,也就是说当一条数据操作失败,那我们会对这条数据进行重试3次,还是失败就是 当做失败了, 那么我们如果有配置skip(推荐配置使用),那么这个数据失败记录就会留到给 skip 来处理。

skip(Exception.class).skipLimit(2)

skip,跳过,也就是说我们如果设置3, 那么就是可以容忍 3条数据的失败。只有达到失败数据达到3次,我们才中断这个step。

对于失败的数据,我们做了相关的监听器以及异常信息记录,供与后续手动补救。

那么记下来我们开始去调用这个批处理job,我们通过接口去触发这个批处理事件,新建一个Controller,TestController.java:

/**

  • @Author : JCccc

  • @CreateTime : 2020/3/17

  • @Description :

**/

@RestController

public class TestController {

@Autowired

SimpleJobLauncher jobLauncher;

@Autowired

Job myJob;

@GetMapping(“testJob”)

public void testJob() throws JobParametersInvalidException, JobExecutionAlreadyRunningException, JobRestartException, JobInstanceAlreadyCompleteException {

// 后置参数:使用JobParameters中绑定参数 addLong addString 等方法

JobParameters jobParameters = new JobParametersBuilder().toJobParameters();

jobLauncher.run(myJob, jobParameters);

}

}

对了,我准备了一个csv文件 bloginfo.csv,里面大概8万多条数据,用来进行批处理测试:

这个文件的路径跟我们的数据读取器里面读取的路径要一直,

目前我们数据库是这个样子,

接下来我们把我们的项目启动起来,

再看一眼数据库,生成了一些batch用来跟踪记录job的一些数据表:

我们来调用一下testJob接口,

然后看下数据库,可以看的数据全部都进行了相关的逻辑处理并插入到了数据库:

到这里,我们对Springboot 整合 spring batch 其实已经操作完毕了,也实现了从csv文件读取数据处理存储的业务场景。

从数据库读取数据

ps:前排提示使用druid有坑。后面会讲到。

那么接下来实现场景,从数据库表内读取数据进行处理输出到新的表里面。

那么基于我们上边的整合,我们已经实现了

1)JobRepository    job的注册/存储器

2)JobLauncher      job的执行器

3)Job                        job任务,包含一个或多个Step

4)Step                    包含(ItemReader、ItemProcessor和ItemWriter)

5)ItemReader         数据读取器

6)ItemProcessor     数据处理器

7)ItemWriter              数据输出器

外加

8) job监听器

9)reader监听器

10)writer监听器

11)process数据校验器

那么对于我们新写一个job完成 一个新的场景,我们需要全部重写么?

显然没必要,当然完全新写一套也是可以的。

那么该篇,对于一个新的也出场景,从csv文件读取数据转换到数据库表读取数据,我们重新新建的有:

小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
img
img

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
img

写在最后

还有一份JAVA核心知识点整理(PDF):JVM,JAVA集合,JAVA多线程并发,JAVA基础,Spring原理,微服务,Netty与RPC,网络,日志,Zookeeper,Kafka,RabbitMQ,Hbase,MongoDB,Cassandra,设计模式,负载均衡,数据库,一致性哈希,JAVA算法,数据结构,加密算法,分布式缓存,Hadoop,Spark,Storm,YARN,机器学习,云计算…

image

)

5)ItemReader         数据读取器

6)ItemProcessor     数据处理器

7)ItemWriter              数据输出器

外加

8) job监听器

9)reader监听器

10)writer监听器

11)process数据校验器

那么对于我们新写一个job完成 一个新的场景,我们需要全部重写么?

显然没必要,当然完全新写一套也是可以的。

那么该篇,对于一个新的也出场景,从csv文件读取数据转换到数据库表读取数据,我们重新新建的有:

小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
[外链图片转存中…(img-6LYcpPYZ-1710740270544)]
[外链图片转存中…(img-xb5b1yhv-1710740270545)]
[外链图片转存中…(img-pNNxBNjj-1710740270545)]

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
[外链图片转存中…(img-R7LESJBO-1710740270545)]

写在最后

还有一份JAVA核心知识点整理(PDF):JVM,JAVA集合,JAVA多线程并发,JAVA基础,Spring原理,微服务,Netty与RPC,网络,日志,Zookeeper,Kafka,RabbitMQ,Hbase,MongoDB,Cassandra,设计模式,负载均衡,数据库,一致性哈希,JAVA算法,数据结构,加密算法,分布式缓存,Hadoop,Spark,Storm,YARN,机器学习,云计算…

[外链图片转存中…(img-pJshrtac-1710740270546)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值