lucene4.7 分页

转载自http://my.oschina.net/MrMichael/blog/220782

我 们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显 然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页 技术。 


介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法, 
其 实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的 存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也 是一样,既然有一个docid的存在,那么上面的需求就很简单了。
 

方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
     try {
         directory=FSDirectory.open( new  File(indexReadPath)); //打开索引文件夹
         IndexReader  reader=DirectoryReader.open(directory); //读取目录
         IndexSearcher search= new  IndexSearcher(reader); //初始化查询组件
         for ( int  i= 0 ;i<reader.numDocs();i++){ //numDocs可能很大
          Document doc=search.doc(i); //依次获取每个docid对应的Document
         //可以在此部,做个批量操作,加快写入速度
         }  
         
          reader.close(); //关闭资源
          directory.close(); //关闭连接
         
         } catch (Exception e){
             e.printStackTrace();
         }

Lucene的分页,总的来说有两种形式,总结如下图表格。(如果存在不合适之处,欢迎指正!)

 

编号方式优点缺点
1在ScoresDocs里进行分页无需再次查询索引,速度很快在海量数据时,会内存溢出
2利用SearchAfter,再次查询分页适合大批量数据的分页再次查询,速度相对慢一点,但可以利用缓存弥补

从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。 

在 我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足 够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式 在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
     try {
         directory=FSDirectory.open( new  File(indexReadPath)); //打开索引文件夹
         IndexReader  reader=DirectoryReader.open(directory); //读取目录
         IndexSearcher search= new  IndexSearcher(reader); //初始化查询组件
         
  
          TopDocs all=search.search( new  MatchAllDocsQuery(),  50000 );
          int  offset= 0 ; //起始位置
          int  pageSize= 30 ; //分页的条数
          int  total= 30 ; //结束条数
          int  z= 0 ;
          while (z<= 50 ){ //总分页数
          System.out.println( "==============================" );
          pageScoreDocs(offset,total,search, all.scoreDocs); //调用分页打印
          offset=(z*pageSize+pageSize); //下一页的位置增量
          z++; //分页数+1;
              total=offset+pageSize; //下一次的结束分页量
          }
          reader.close(); //关闭资源
          directory.close(); //关闭连接
         
         } catch (Exception e){
             e.printStackTrace();
         }
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
public  void  pageScoreDocs( int  offset, int  total,IndexSearcher searcher,ScoreDoc[] doc)  throws  Exception{
         //System.out.println("offset:"+offset+"===>"+total);
         for ( int  i=offset;i<total;i++){
             //System.out.println("i"+i+"==>"+doc.length);
             if (i>doc.length- 1 ){ //当分页的长度数大于总数就停止
                 
                 break ;
             } else {
         
                Document dosc=searcher.doc(doc[i].doc);
                System.out.println(dosc.get( "name" ));
            
             }
         }

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
     try {
         directory=FSDirectory.open( new  File(indexReadPath)); //打开索引文件夹
         IndexReader  reader=DirectoryReader.open(directory); //读取目录
         IndexSearcher search= new  IndexSearcher(reader); //初始化查询组件
         
          int  pageStart= 0 ;
          ScoreDoc lastBottom= null ; //相当于pageSize
          while (pageStart< 10 ){ //这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
              TopDocs paged= null ;
              paged=search.searchAfter(lastBottom,  new  MatchAllDocsQuery(), null , 30 ); //查询首次的30条
              if (paged.scoreDocs.length== 0 ){
                  break ; //如果下一页的命中数为0的情况下,循环自动结束
              }
              page(search,paged); //分页操作,此步是传到方法里对数据做处理的
              
              pageStart+=paged.scoreDocs.length; //下一次分页总在上一次分页的基础上
              lastBottom=paged.scoreDocs[paged.scoreDocs.length- 1 ]; //上一次的总量-1,成为下一次的lastBottom
          }
          reader.close(); //关闭资源
          directory.close(); //关闭连接
         
         } catch (Exception e){
             e.printStackTrace();
         }

至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。

 

lucene搜索分页过程中,可以有两种方式 一种是将搜索结果集直接放到session中,但是假如结果集非常大,同时又存在大并发访问的时候,很可能造成服务器的内存不足,而使服务器宕机 还有一种是每次都重新进行搜索,这样虽然避免了内存溢出的可能,但是,每次搜索都要进行一次IO操作,如果大并发访问的时候,你要保证你的硬盘的转速足够的快,还要保证你的cpu有足够高的频率 而我们可以将这两种方式结合下,每次查询都多缓存一部分的结果集,翻页的时候看看所查询的内容是不是在已经存在在缓存当中,如果已经存在了就直接拿出来,如果不存在,就进行查询后,从缓存中读出来. 比如:现在我们有一个搜索结果集 一个有100条数据,每页显示10条,就有10页数据. 安装第一种的思路就是,我直接把这100条数据缓存起来,每次翻页时从缓存种读取 而第二种思路就是,我直接从搜索到的结果集种显示前十条给第一页显示,第二页的时候,我在查询一次,给出10-20条数据给第二页显示,我每次翻页都要重新查询 第三种思路就变成了 我第一页仅需要10条数据,但是我一次读出来50条数据,把这50条数据放入到缓存当中,当我需要10--20之间的数据的时候,我的发现我的这些数据已经在我的缓存种存在了,我就直接存缓存中把数据读出来,少了一次查询,速度自然也提高了很多. 如果我访问第六页的数据,我就把我的缓存更新一次.这样连续翻页10次才进行两次IO操作 同时又保证了内存不容易被溢出.而具体缓存设置多少,要看你的服务器的能力和访问的人数来决定
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值