需求背景:客户那边需要通过全文检索查询PDF文件,按理说这也没啥,问题是用户的文件是批量生成的,类型不同,数量也不同,几百、几千、几万的都有。我后台这边需要创建索引,把所有的PDF内容都读出来然后写到索引当中,问题出现的原因就是文件太堵,大小也不一致,读取较慢,一个文件大概两三秒左右,几千个文件算下来都要几小时了。程序可能执行过程中就崩了,或者没有了响应。
那么如何去突破该瓶颈呢?
第一次尝试:使用异步处理。
为了不让用户等的太久,以及接口超时响应,我选择使用@Async,将创建索引的过程在后台执行,用户点击的时候提示用户后台创建中,请耐心等待,同时我还加了个创建状态,等到创建完成的时候把状态修改为已完成,可想而知,这当然是行不通的,虽然前台能及时获得响应,但是数据还是一条一条的要执行的,没有达到预想效果。最开始修改如下效果
第二次尝试:分批处理
在原有的基础上,我打算把数据进行分批次进行创建。根据数据的大小,每次处理两百条,每次的处理也同时使用异步处理。代码如下
然而实践是检验效果的唯一真理。感觉是行的,真实跑起来的时候,那效果确实太差劲了。
第三次尝试:多线程
使用多线程去读取文件,这次效果感觉确实快了不少,并且也不会卡死,效果颇好
新的问题又来了,我需要知道所有的文件都被读取完后修改创建状态,方便用户查看是否完成的。修改代码如下
本来以为要结束了,想着把读取到的文件内容存到索引里面就完事了,但是没想到,又有新问题,lucene创建索引的时候indexWriter不允许多线程操作,否则报错:Lucene org.apache.lucene.store.LockObtainFailedException: Lock held by this virtual machine: XX 问题
没办法继续解决啊
使用ReentrantLock处理,先定义一把锁。
每次读取到文件的时候,在创建索引之前上一把锁,保证只有一个线程去执行,然后写入索引,最后再释放锁
到这里问题已经解决了。速度比原来明显快了一点,暂时也没发现其他问题。
20210916 记录一下多线程优化查询速度的代码
//多线程查询 增加查询结果速度
ExecutorService exec=Executors.newCachedThreadPool();
List<Future<Integer>> results=new ArrayList<Future<Integer>>();
//多线程查询
for(int i=0;i<ids.size();i++) {
results.add(exec.submit(new CountTask(ids.get(i),tableList)));
}
for(Future<Integer> fs :results) {
totals =totals+ fs.get();
}
public class CountTask implements Callable<Integer>{
private Object id;
List<Map<String, Object>> tableList;
public CountTask(Object id,List<Map<String, Object>> tableList){
this.id = id;
this.tableList = tableList;
}
@Override
public Integer call() throws Exception {
int totals=0;
//CommonService service = SpringUtils.getBean(CommonService.class);//这种拿不到
CommonService commonService = SpringUtils.getBean("commonService");
int length = this.tableList.size();
for(int n=0;n<length;n++){
//统计当前A/B区在盒数据
String sql=" select count(*) as totals from (select a.id from (select id from warehousesettingtree where pid='"+id+"') as w inner join warehousesettingtree as a where w.id=a.pid) as b inner join "+tableList.get(n).get("name")+" as c where b.id=c.kfdawz ";
Map<String, Object> countMap = commonService.findOneForJdbc(sql);
totals = totals+Integer.parseInt(countMap.get("totals").toString());
}
return totals;
}
}
20210918 今天心血来潮,修改最上面的多线程执行代码,效果良好