lucene4.7 分页

最新推荐文章于 2024-11-14 15:58:00 发布

weixin_34260991

最新推荐文章于 2024-11-14 15:58:00 发布

阅读量80

点赞数

文章标签：数据库

转载自http://my.oschina.net/MrMichael/blog/220782

我们先来看下下面的问题，现在我们的索引里有2亿多的数据，那么现在的需求是，把索引里的全部数据，读取然后写入txt文本里，对于这么一个量级的数据，显然是不可能一下子全部读取完的，那得要多大的内存才能够支持下来，是一个很恐怖的内存量，所以就引入散仙今天要给大家介绍的一个功能，Lucene的分页技术。

在介绍分页之前，我们先来看看上面的那个需求，不用分页的解决办法，
其实在lucene里面，每一个索引都会对应一个不重复的docid，而这一点跟Oralce数据库的伪列rownum一样，恰恰正是由于这个docid的存在，所以让lucene在海量数据检索时从而拥有更好的性能，我们都知道Oracle数据库在分页时，使用的就是伪列进行分页，那么我的lucene也是一样，既然有一个docid的存在，那么上面的需求就很简单了。

方法一:依次根据每个docid获取文档然后写入txt中，这样的以来，就避免了内存不足的缺点，但是这样单条读取的话，速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

 
         try 
         { 
        
         directory=FSDirectory.open( 
         new  
         File(indexReadPath)); 
         //打开索引文件夹 
        
         IndexReader  reader=DirectoryReader.open(directory); 
         //读取目录 
        
         IndexSearcher search= 
         new  
         IndexSearcher(reader); 
         //初始化查询组件 
        
         for 
         ( 
         int  
         i= 
         0 
         ;i<reader.numDocs();i++){ 
         //numDocs可能很大 
        
         Document doc=search.doc(i); 
         //依次获取每个docid对应的Document 
        
         //可以在此部，做个批量操作,加快写入速度 
        
         }   
        
         reader.close(); 
         //关闭资源 
        
         directory.close(); 
         //关闭连接 
        
         } 
         catch 
         (Exception e){ 
        
         e.printStackTrace(); 
        
         }

Lucene的分页，总的来说有两种形式，总结如下图表格。（如果存在不合适之处，欢迎指正！）

编号	方式	优点	缺点
1	在ScoresDocs里进行分页	无需再次查询索引，速度很快	在海量数据时，会内存溢出
2	利用SearchAfter，再次查询分页	适合大批量数据的分页	再次查询，速度相对慢一点，但可以利用缓存弥补

从上图我们可以分析出，ScoreDocs适合在数据量不是很大的场景下进行分页，而SearchAfter则都适合，所以，我们要根据自己的业务需求，合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后，我们再来探讨下上面那个读2亿数据存入txt文本里，在这里，SocreDocs不适合这种场景，当然如果你内存足够大的话，可以尝试下，通用分页分批读取的方式，可以提升我们的写入效率，效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合，但是作为示例，下面散仙给出使用ScoreDocs进行分页的代码：

 
         try 
         { 
        
         directory=FSDirectory.open( 
         new  
         File(indexReadPath)); 
         //打开索引文件夹 
        
         IndexReader  reader=DirectoryReader.open(directory); 
         //读取目录 
        
         IndexSearcher search= 
         new  
         IndexSearcher(reader); 
         //初始化查询组件 
        
         TopDocs all=search.search( 
         new  
         MatchAllDocsQuery(),  
         50000 
         ); 
        
         int  
         offset= 
         0 
         ; 
         //起始位置 
        
         int  
         pageSize= 
         30 
         ; 
         //分页的条数 
        
         int  
         total= 
         30 
         ; 
         //结束条数 
        
         int  
         z= 
         0 
         ; 
        
         while 
         (z<= 
         50 
         ){ 
         //总分页数 
        
         System.out.println( 
         "==============================" 
         ); 
        
         pageScoreDocs(offset,total,search, all.scoreDocs); 
         //调用分页打印 
        
         offset=(z*pageSize+pageSize); 
         //下一页的位置增量 
        
         z++; 
         //分页数+1； 
        
         total=offset+pageSize; 
         //下一次的结束分页量 
        
         } 
        
         reader.close(); 
         //关闭资源 
        
         directory.close(); 
         //关闭连接 
        
         } 
         catch 
         (Exception e){ 
        
         e.printStackTrace(); 
        
         }

 
         public  
         void  
         pageScoreDocs( 
         int  
         offset, 
         int  
         total,IndexSearcher searcher,ScoreDoc[] doc)  
         throws  
         Exception{ 
        
         //System.out.println("offset:"+offset+"===>"+total); 
        
         for 
         ( 
         int  
         i=offset;i<total;i++){ 
        
         //System.out.println("i"+i+"==>"+doc.length); 
        
         if 
         (i>doc.length- 
         1 
         ){ 
         //当分页的长度数大于总数就停止 
        
         break 
         ; 
        
         } 
         else 
         { 
        
         Document dosc=searcher.doc(doc[i].doc); 
        
         System.out.println(dosc.get( 
         "name" 
         )); 
        
         } 
        
         }

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

 
         try 
         { 
        
         directory=FSDirectory.open( 
         new  
         File(indexReadPath)); 
         //打开索引文件夹 
        
         IndexReader  reader=DirectoryReader.open(directory); 
         //读取目录 
        
         IndexSearcher search= 
         new  
         IndexSearcher(reader); 
         //初始化查询组件 
        
         int  
         pageStart= 
         0 
         ; 
        
         ScoreDoc lastBottom= 
         null 
         ; 
         //相当于pageSize 
        
         while 
         (pageStart< 
         10 
         ){ 
         //这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作 
        
         TopDocs paged= 
         null 
         ; 
        
         paged=search.searchAfter(lastBottom,  
         new  
         MatchAllDocsQuery(), 
         null 
         , 
         30 
         ); 
         //查询首次的30条 
        
         if 
         (paged.scoreDocs.length== 
         0 
         ){ 
        
         break 
         ; 
         //如果下一页的命中数为0的情况下，循环自动结束 
        
         } 
        
         page(search,paged); 
         //分页操作，此步是传到方法里对数据做处理的 
        
         pageStart+=paged.scoreDocs.length; 
         //下一次分页总在上一次分页的基础上 
        
         lastBottom=paged.scoreDocs[paged.scoreDocs.length- 
         1 
         ]; 
         //上一次的总量-1，成为下一次的lastBottom 
        
         } 
        
         reader.close(); 
         //关闭资源 
        
         directory.close(); 
         //关闭连接 
        
         } 
         catch 
         (Exception e){ 
        
         e.printStackTrace(); 
        
         }