【Lucene】索引库的优化

什么是索引库?

索引库是Lucene的重要的存储结构,它包括二部份:原始记录表,词汇表

 原始记录表:存放的是原始记录信息,Lucene为存入的内容分配一个唯一的编号

 词汇表:存放的是经过分词器拆分出来的词汇和该词汇在原始记录表中的编号


为什么要将索引库进行优化?

在默认情况下,向索引库中增加一个Document对象时,索引库自动会添加一个扩展名叫*.cfs的二进制压缩文件,如果向索引库中存Document对象过多,那么*.cfs也会不断增加,同时索引库的容量也会不断增加,影响索引库的大小。


优化方式:

第一种:合并cfs文件,合并后的cfs文件是二进制压缩字符,能解决是的文件大小和数量的问题,每次添加都合并

indexWriter.addDocument(document);
indexWriter.optimize();
indexWriter.close();

第二种:设定合并因子,自动合并cfs文件,默认10个cfs文件合并成一个cfs文件

indexWriter.addDocument(document);
indexWriter.setMergeFactor(10);
indexWriter.close();

使用RAMDirectory,类似于内存索引库,能解决是的读取索引库文件的速度问题,它能以空换时,提高速度快,但不能持久保存,因此启动时加载硬盘中的索引库到内存中的索引库,退出时将内存中的索引库保存到硬盘中的索引库,且内容不能重复。

DirectoryfsDirectory = FSDirectory.open(new File("E:/indexDB"));
Directory ramDirectory = new RAMDirectory(fsDirectory);
      
IndexWriter fsIndexWriter = new IndexWriter(fsDirectory,LuceneUtil.getAnalyzer(),true,LuceneUtil.getMaxFieldLength());
IndexWriter ramIndexWriter = new IndexWriter(ramDirectory,LuceneUtil.getAnalyzer(),LuceneUtil.getMaxFieldLength());
      
ramIndexWriter.addDocument(document);
ramIndexWriter.close();
      
fsIndexWriter.addIndexesNoOptimize(ramDirectory);
fsIndexWriter.close();














评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值