SpringBoot + MongoDB 大容量数据多线程分批处理(示例:抽取字段构建新表)

在实际工作中,我遇到了需要对千万级别数据量的库表进行抽取字段构建新表的需求,于是在此进行总结:

一. 未使用多线程

1. 新建查询类 ExtractInfo

package com.example.demo.bean;

import java.util.List;

public class ExtractInfo {

    private String tableName;

    private List<String> fields;

    public String getTableName() {
        return tableName;
    }

    public void setTableName(String tableName) {
        this.tableName = tableName;
    }

    public List<String> getFields() {
        return fields;
    }

    public void setFields(List<String> fields) {
        this.fields = fields;
    }

    @Override
    public String toString() {
        return "ExtractInfo{" +
                "tableName='" + tableName + '\'' +
                ", fields=" + fields +
                '}';
    }
}

其中 tableName 字段为需要操作的库表,fields 为需要抽取的字段

2. 新建 AsyncController 类

package com.example.demo.controller;

import com.alibaba.fastjson.JSONObject;
import com.example.demo.bean.ExtractInfo;
import com.example.demo.service.AsyncServer;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

import java.util.List;

@RestController
@RequestMapping("/async")
@CrossOrigin(value = "*",  maxAge = 3600)
public class AsyncController {

    @Autowired
    private AsyncServer server;

    @RequestMapping(value = "/extract", method = RequestMethod.POST)
    public JSONObject extractFields(@RequestBody ExtractInfo extractInfo){
        JSONObject output = new JSONObject();
        String tableName = extractInfo.getTableName();
        List<String> fields = extractInfo.getFields();
        long startTime = System.currentTimeMillis();
        server.extractFields(tableName, fields);
        long endTime = System.currentTimeMillis();
        output.put("status", 200);
        output.put("msg", "success");
        output.put("time", "花费时间:"+(endTime-startTime)/1000+"秒");
        return output;
    }

}

3. 新建 AsyncServer 类

package com.example.demo.service;

import com.example.demo.dao.MongoDBTestImpl;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Service;

import javax.annotation.Resource;
import java.util.List;

@Service
public class AsyncServer {

    @Resource
    private MongoDBTestImpl mongoDBTestImpl;

    public void extractFields(String tableName, List<String> fields) {
        String newTableName = tableName+"_new";
        long total = mongoDBTestImpl.countData(tableName);
        long size = total/10000;
        long number = total%10000;
        if (number != 0) {
            size+=1;
        }
        for (int i=0;i<size;i++) {
            mongoDBTestImpl.extractFields(i, tableName, newTableName, fields);
        }
    }
}

3. 新建 AsyncImpl 类

package com.example.demo.dao;

import org.springframework.data.mongodb.core.MongoTemplate;
import org.springframework.data.mongodb.core.query.Query;
import org.springframework.stereotype.Repository;

import javax.annotation.Resource;
import java.util.List;

@Repository
public class MongoDBTestImpl {

    @Resource
    private MongoTemplate template;

    public long countData(String tableName) {
        Query query = new Query();
        return template.count(query, tableName);
    }

    public void extractFields(int i, String tableName, String newTableName, List<String> fields) {
        int num = (i*10000);
        Query query = new Query();
        for (String field: fields) {
            query.fields().include(field);
        }
        List<Object> objects = template.find(query.skip(num).limit(10000),Object.class, tableName);
        template.insert(objects, newTableName);
    }
}

代码运行测试:

可以看到,两百万条数据量左右的表处理时间大概为3分钟左右

 二. 引入多线程

关于如何使用多线程,请参考之前的文章

SpringBoot整合多线程入门教程

1. 修改 AsyncController 类

package com.example.demo.controller;

import com.alibaba.fastjson.JSONObject;
import com.example.demo.bean.ExtractInfo;
import com.example.demo.service.AsyncServer;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

import java.util.List;

@RestController
@RequestMapping("/async")
@CrossOrigin(value = "*",  maxAge = 3600)
public class AsyncController {

    @Autowired
    private AsyncServer server;

    @RequestMapping(value = "/extract", method = RequestMethod.POST)
    public JSONObject extractFields(@RequestBody ExtractInfo extractInfo) throws InterruptedException{
        JSONObject output = new JSONObject();
        String tableName = extractInfo.getTableName();
        List<String> fields = extractInfo.getFields();
        long startTime = System.currentTimeMillis();
        server.extractFields(tableName, fields);
        long endTime = System.currentTimeMillis();
        output.put("status", 200);
        output.put("msg", "success");
        output.put("time", "花费时间:"+(endTime-startTime)/1000+"秒");
        return output;
    }

}

2. 修改 AsyncServer 类

package com.example.demo.service;

import com.example.demo.dao.MongoDBTestImpl;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Service;

import javax.annotation.Resource;
import java.util.List;
import java.util.concurrent.CountDownLatch;

@Service
public class AsyncServer {

    @Resource
    private MongoDBTestImpl mongoDBTestImpl;

    public void extractTables(String tableName, List<String> fields) throws InterruptedException{
        String newTableName = tableName+"_new";
        long total = mongoDBTestImpl.countData(tableName);
        long size = total/10000;
        long number = total%10000;
        if (number != 0) {
            size+=1;
        }
        if (size>500){
            long page = size/500;
            long left = size%500;
            for (int j=0;j<page;j++) {
                int startNum = 500*j;
                int endNum = 500*(j+1);
                CountDownLatch countDownLatch = new CountDownLatch(500);
                {
                    for (int i=startNum;i<endNum;i++) {
                        mongoDBTestImpl.extractFields(i, fields, tableName, newTableName, countDownLatch);
                    }
                }
                countDownLatch.await();
            }
            if (left != 0) {
                CountDownLatch countDownLatch = new CountDownLatch((int)(size-page*500));
                for (int i=(int)page*500;i<size;i++) {
                    mongoDBTestImpl.extractFields(i, fields, tableName, newTableName, countDownLatch);
                }
                countDownLatch.await();
            }
        } else {
            CountDownLatch countDownLatch = new CountDownLatch((int)size);
            for (int i=0;i<size;i++) {
                mongoDBTestImpl.extractFields(i, fields, tableName, newTableName, countDownLatch);
            }
            countDownLatch.await();
        }
        System.out.println("complete");
    }

}

此段代码逻辑为:将数据按每10000条分批,每次最多500批进入等待队列,每次20个线程同时处理

3. 修改 AsyncImpl 类

package com.example.demo.dao;

import org.springframework.data.mongodb.core.MongoTemplate;
import org.springframework.data.mongodb.core.query.Query;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Repository;

import javax.annotation.Resource;
import java.util.List;
import java.util.concurrent.CountDownLatch;

@Repository
public class MongoDBTestImpl {

    @Resource
    private MongoTemplate template;

    public long countData(String tableName) {
        Query query = new Query();
        return template.count(query, tableName);
    }

    @Async("async")
    public void extractFields(int i, List<String> fields, String oldTableName, String newTableName, CountDownLatch countDownLatch) {
        int num = (i*10000);
        Query query = new Query();
        for (String field: fields) {
            query.fields().include(field);
        }
        List<Object> objects = template.find(query.skip(num).limit(10000),Object.class, oldTableName);
        template.insert(objects, newTableName);
        countDownLatch.countDown();
    }

}

代码运行测试:

 可以看到,两百万条数据量的库表处理时间直接降至 22 秒,效果拔群

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spring Boot是一个快速开发框架,可以帮助开发人员快速构建基于Spring的应用程序。而MongoDB是一个流行的NoSQL数据库,具有高性能和可扩展性。使用Spring BootMongoDB可以轻松构建高效的Web应用程序,同时还可以利用Spring Boot的自动配置和MongoDB的灵活性来简化开发过程。 ### 回答2: Spring Boot是一个开源的Java开发框架,它简化了基于Java的应用程序的开发和配置。它提供了一个快速的开发环境,将开发人员从复杂的配置任务中解放出来,使开发更加高效。Spring Boot通过自动配置来简化应用程序的配置,允许开发人员专注于业务逻辑的实现。 MongoDB是一个流行的开源文档数据库,它使用JSON样式的文档来存储数据MongoDB具有高度可扩展性和灵活性,并且能够在大型的布式系统中处理大量的数据。它也可以很好地支持面向对象的数据模型,提供了强大的查询析工具。 使用Spring BootMongoDB结合,可以更轻松地开发和管理基于MongoDB的应用程序。Spring Boot提供了与MongoDB集成所需的自动配置,包括连接MongoDB服务器、创建和管理数据库、执行CRUD操作等。开发人员只需要通过几行简单的配置和注解,就能够快速地构建出一个可用的基于MongoDB的应用程序。 此外,Spring Boot还提供了一些方便的功能和工具,使得与MongoDB的交互更加方便。例如,它提供了Spring Data MongoDB模块,该模块为开发人员提供了更高级的数据库访问抽象,使得使用MongoDB更加简单和灵活。同时,Spring Boot还支持使用MongoTemplate和MongoRepository等工具来进行数据库操作,使开发人员可以更轻松地进行数据操作和查询。 综上所述,Spring BootMongoDB结合使用,能够大大简化基于MongoDB的应用程序的开发和管理工作,提高开发效率。它提供了简单而强大的工具和自动配置,使开发人员可以更加专注于业务逻辑的实现,而无需花费过多时间和精力在繁琐的配置工作上。 ### 回答3: Spring Boot是一个用于创建基于Java的独立、生产级别的Spring应用程序的框架。它简化了Spring应用程序的配置和部署过程,并提供了一种快速开发和构建可伸缩应用程序的方式。 MongoDB是一个开源的文档数据库,它以JSON样式的文档存储数据,而不是传统的关系型数据库表结构。它具有高度可伸缩性、高性能和灵活的数据建模能力。 Spring Boot集成了对MongoDB的支持,使得开发人员可以简单快速地将MongoDB集成到Spring应用程序中。它提供了MongoDB驱动程序的自动配置,并为我们处理了与数据库的连接、集合操作、事务等方面的繁琐工作。 使用Spring BootMongoDB可以实现以下几个方面的好处: 1. 快速开发:Spring Boot提供了自动配置功能,减少了配置和部署的复杂性,使得开发人员可以更加专注于业务逻辑的实现。 2. 高度可伸缩性:MongoDB布式架构使得它可以轻松地扩展,适应不同规模和复杂度的应用需求。 3. 灵活的数据建模:MongoDB的文档存储方式使得数据建模更加灵活,可以根据应用程序的需求自由设计文档结构。 4. 高性能:MongoDB采用了内存映射存储引擎,使得数据的读写速度更快,并且支持水平扩展,保证了高并发下的稳定性和性能。 总之,Spring BootMongoDB的结合使得开发人员能够快速构建可伸缩和高性能的应用程序,并且通过灵活的数据建模能力满足不同的业务需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值