大数据量处理一般比较难得处理,关键是数据量大,处理起来时间比较长,导致系统可能面临数据库表死锁、系统响应时间变长,甚至down机的可能。现总结一类大数据量处理模型。
大数据量一般可以采用多线程来处理,可以加速数据处理速度,多线程最头痛的问题是共享数据同步的问题。有这样的一个模型,可以处理大数据量的问题。
思路:先找出共享数据的范围(数据量大,不可能全部查询出来),然后每个线程每次拿一批数据来处理。代码模型实现如下。
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.CountDownLatch;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
/**
*
* 大数据量处理模型思路:先找出共享数据的范围(起止范围的批次),然后每个线程每次处理一个批次数据
*
*/
class DealTask implements Callable<Integer> {
// 这里全部都是引用,每个DealTask对象都有这些数据,但都是指向同一个地址
private List<Integer> list;
private CountDownLatch latch;
private Object obj;
public void build(List<Integer> list, CountDownLatch latch, Object obj) {
if(this.list == null){
this.list = list;
}
this.latch = latch;
this.obj = obj;
}
@Override
public Integer call() throws Exception {
while (true) {
// 同步处理list数据,从头取,然后删除,list 数量不断减少
synchronized (obj) {
if (list.size() > 0) {
System.out.println(this+ " get "+ list.get(0));
list.remove(0);
} else {
break;
}
}
// 模拟逻辑处理
Thread.sleep(10);
}
// latch减1
latch.countDown();
return 1;
}
}
public class MulThread {
// 线程数
private static int THREAD_NUM = 4;
public static void main(String args[]) throws InterruptedException {
// 同步锁
Object obj = new Object();
// 同步计数器
CountDownLatch latch = new CountDownLatch(4);
// 初始化值
List<Integer> list = new ArrayList<Integer>();
list.add(3);
list.add(1);
list.add(4);
list.add(5);
list.add(9);
list.add(7);
list.add(8);
list.add(2);
list.add(0);
// 线程池
ExecutorService exec = Executors.newFixedThreadPool(4);
// Future返回值
ArrayList<Future<Integer>> results = new ArrayList<Future<Integer>>();
for(int i=0;i<THREAD_NUM;i++){
DealTask task = new DealTask();
task.build(list, latch, obj);
results.add(exec.submit(task));
}
// 阻塞等待,直到latch减少为0
latch.await();
}
}