lucene4.7 分页（五）

最新推荐文章于 2021-04-25 18:06:49 发布

weixin_34166472

最新推荐文章于 2021-04-25 18:06:49 发布

阅读量53

点赞数

文章标签：数据库 python 人工智能

原文链接：https://my.oschina.net/xiaominmin/blog/1597499

版权

2019独角兽企业重金招聘Python工程师标准>>>

lucene4.7 分页（五）博客分类：搜索引擎，爬虫 java

我们先来看下下面的问题，现在我们的索引里有2亿多的数据，那么现在的需求是，把索引里的全部数据，读取然后写入txt文本里，对于这么一个量级的数据，显然是不可能一下子全部读取完的，那得要多大的内存才能够支持下来，是一个很恐怖的内存量，所以就引入散仙今天要给大家介绍的一个功能，Lucene的分页技术。

在介绍分页之前，我们先来看看上面的那个需求，不用分页的解决办法，
其实在lucene里面，每一个索引都会对应一个不重复的docid，而这一点跟Oralce数据库的伪列rownum一样，恰恰正是由于这个docid的存在，所以让lucene在海量数据检索时从而拥有更好的性能，我们都知道Oracle数据库在分页时，使用的就是伪列进行分页，那么我的lucene也是一样，既然有一个docid的存在，那么上面的需求就很简单了。

方法一:依次根据每个docid获取文档然后写入txt中，这样的以来，就避免了内存不足的缺点，但是这样单条读取的话，速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

 
          try 
          { 
         
          directory=FSDirectory.open( 
          new  
          File(indexReadPath)); 
          //打开索引文件夹 
         
          IndexReader  reader=DirectoryReader.open(directory); 
          //读取目录 
         
          IndexSearcher search= 
          new  
          IndexSearcher(reader); 
          //初始化查询组件 
         
          for 
          ( 
          int  
          i= 
          0 
          ;i<reader.numDocs();i++){ 
          //numDocs可能很大 
         
          Document doc=search.doc(i); 
          //依次获取每个docid对应的Document 
         
          //可以在此部，做个批量操作,加快写入速度 
         
          }   
         
          reader.close(); 
          //关闭资源 
         
          directory.close(); 
          //关闭连接 
         
          } 
          catch 
          (Exception e){ 
         
          e.printStackTrace(); 
         
          }

Lucene的分页，总的来说有两种形式，总结如下图表格。（如果存在不合适之处，欢迎指正！）

编号	方式	优点	缺点
1	在ScoresDocs里进行分页	无需再次查询索引，速度很快	在海量数据时，会内存溢出
2	利用SearchAfter，再次查询分页	适合大批量数据的分页	再次查询，速度相对慢一点，但可以利用缓存弥补

从上图我们可以分析出，ScoreDocs适合在数据量不是很大的场景下进行分页，而SearchAfter则都适合，所以，我们要根据自己的业务需求，合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后，我们再来探讨下上面那个读2亿数据存入txt文本里，在这里，SocreDocs不适合这种场景，当然如果你内存足够大的话，可以尝试下，通用分页分批读取的方式，可以提升我们的写入效率，效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合，但是作为示例，下面散仙给出使用ScoreDocs进行分页的代码：

 
          try 
          { 
         
          directory=FSDirectory.open( 
          new  
          File(indexReadPath)); 
          //打开索引文件夹 
         
          IndexReader  reader=DirectoryReader.open(directory); 
          //读取目录 
         
          IndexSearcher search= 
          new  
          IndexSearcher(reader); 
          //初始化查询组件 
         
          TopDocs all=search.search( 
          new  
          MatchAllDocsQuery(),  
          50000 
          ); 
         
          int  
          offset= 
          0 
          ; 
          //起始位置 
         
          int  
          pageSize= 
          30 
          ; 
          //分页的条数 
         
          int  
          total= 
          30 
          ; 
          //结束条数 
         
          int  
          z= 
          0 
          ; 
         
          while 
          (z<= 
          50 
          ){ 
          //总分页数 
         
          System.out.println( 
          "==============================" 
          ); 
         
          pageScoreDocs(offset,total,search, all.scoreDocs); 
          //调用分页打印 
         
          offset=(z*pageSize+pageSize); 
          //下一页的位置增量 
         
          z++; 
          //分页数+1； 
         
          total=offset+pageSize; 
          //下一次的结束分页量 
         
          } 
         
          reader.close(); 
          //关闭资源 
         
          directory.close(); 
          //关闭连接 
         
          } 
          catch 
          (Exception e){ 
         
          e.printStackTrace(); 
         
          }

 
          public  
          void  
          pageScoreDocs( 
          int  
          offset, 
          int  
          total,IndexSearcher searcher,ScoreDoc[] doc)  
          throws  
          Exception{ 
         
          //System.out.println("offset:"+offset+"===>"+total); 
         
          for 
          ( 
          int  
          i=offset;i<total;i++){ 
         
          //System.out.println("i"+i+"==>"+doc.length); 
         
          if 
          (i>doc.length- 
          1 
          ){ 
          //当分页的长度数大于总数就停止 
         
          break 
          ; 
         
          } 
          else 
          { 
         
          Document dosc=searcher.doc(doc[i].doc); 
         
          System.out.println(dosc.get( 
          "name" 
          )); 
         
          } 
         
          }

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

 
          try 
          { 
         
          directory=FSDirectory.open( 
          new  
          File(indexReadPath)); 
          //打开索引文件夹 
         
          IndexReader  reader=DirectoryReader.open(directory); 
          //读取目录 
         
          IndexSearcher search= 
          new  
          IndexSearcher(reader); 
          //初始化查询组件 
         
          int  
          pageStart= 
          0 
          ; 
         
          ScoreDoc lastBottom= 
          null 
          ; 
          //相当于pageSize 
         
          while 
          (pageStart< 
          10 
          ){ 
          //这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作 
         
          TopDocs paged= 
          null 
          ; 
         
          paged=search.searchAfter(lastBottom,  
          new  
          MatchAllDocsQuery(), 
          null 
          , 
          30 
          ); 
          //查询首次的30条 
         
          if 
          (paged.scoreDocs.length== 
          0 
          ){ 
         
          break 
          ; 
          //如果下一页的命中数为0的情况下，循环自动结束 
         
          } 
         
          page(search,paged); 
          //分页操作，此步是传到方法里对数据做处理的 
         
          pageStart+=paged.scoreDocs.length; 
          //下一次分页总在上一次分页的基础上 
         
          lastBottom=paged.scoreDocs[paged.scoreDocs.length- 
          1 
          ]; 
          //上一次的总量-1，成为下一次的lastBottom 
         
          } 
         
          reader.close(); 
          //关闭资源 
         
          directory.close(); 
          //关闭连接 
         
          } 
          catch 
          (Exception e){ 
         
          e.printStackTrace(); 
         
          }