Lucene 3.5 提供深度分页支持 searchAfter方法 方法的应用

      最近Lucene项目管理委员会宣布Apache Lucene 3.5.0和Apache Solr 3.5.0已经可以使用。Lucene是一个高性能、支持全文搜索的文本搜索开发库。Solr是一个独立的搜索服务器,其核心使用了Lucene来做索引和搜索。

      Lucene 3.5其中一个最新的特征就是深度分页支持,在之前的版本是提供分页的方法,只能根据自己的应用场景去写分页的方法!在《lucene in action》一书中提现两种分页的方法:1、将首次搜索获得的多页搜索结果收集起来并保存在ScoreDocs和IndexSearcher实例中,并在用户换页浏览时展现这几页的结果。

     2、每次用户换页浏览时都重新进行查询操作。

按这两个方法是可以做出分页的,只是效果及性能影响大小而已!

     现在Lucene 3.5 加入IndexSearcher.searchAfter方法,它在特定的ScoreDoc之后会返回结果。你可以将上一页的最后一个document传递给searchAfter方法,以得到下一页的结果。

     实例如下:           

 

View Code
 1 @Override
2 public List<BlogsDO> searchBlogsList(String content,String bTypeId,String sDate,String eDate,Page page) throws IOException, ParseException {
3 List<BlogsDO> blogList=new ArrayList<BlogsDO>() ;
4 // TODO Auto-generated method stub
5 TokenStream tokenStream=null;
6 try{
7 analyzer = new IKAnalyzer();
8 //获取IndexSearcher 对象
9 IndexSearcher indexSearch =commonIndexWriter.getIndexSearcher();
10 QueryParser queryParser= commonIndexWriter.getQueryParser();
11 //搜索条件的结合
12 String str="";
13 if(StringUtils.isNotEmpty(content)){
14 str="title:"+content+" content:"+content;
15 }
16 if(StringUtils.isNotEmpty(bTypeId) && !bTypeId.equals("-1")){
17 if(StringUtils.isNotEmpty(str)){
18 str=str+" AND bTypeId:"+bTypeId;
19 }else{
20 str=str+" bTypeId:"+bTypeId;
21 }
22 }
23 if(StringUtils.isNotEmpty(sDate)){
24 if(StringUtils.isNotEmpty(str)){
25 str=str+" AND gmt_create:["+sDate+" TO "+eDate+"]";
26 }else{
27 str=str+" gmt_create:["+sDate+" TO "+eDate+"]";
28 }
29 }
30 //设置搜索条件
31 Query query=queryParser.parse(str);
32 //查询搜索引擎
33 TopDocs result = indexSearch.search(query, 10);
34 //上一页的最后一个document索引
35 int index=(page.getCurrentPage()-1)*page.getPerPageSize();
36 ScoreDoc scoreDoc=null;
37 //如果当前页是第一页面scoreDoc=null。
38 if(index>0){
39 //因为索引是从0开始所以要index-1
40 scoreDoc=result.scoreDocs[index-1];
41 }
42 //分页处理
43 TopDocs hits= indexSearch.searchAfter(scoreDoc, query, page.getPerPageSize());
44 //设置分页的总记录数
45 page.setCounts(hits.totalHits);
46 BlogsDO blog=null;
47 //循环hits.scoreDocs数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值
48 for (int i = 0; i < hits.scoreDocs.length; i++) {
49 ScoreDoc sdoc = hits.scoreDocs[i];
50 Document doc = indexSearch.doc(sdoc.doc);
51 blog=new BlogsDO();
52 String title=doc.get("title");
53 String mark=doc.get("content");
54 //加亮处理
55 SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font color='red'>", "</font>");
56 Highlighter highlighter = new Highlighter(simplehtml,new QueryScorer(query));
57 if(title!=null){
58 tokenStream = analyzer.tokenStream("title",new StringReader(title));
59 String highLightText = highlighter.getBestFragment(tokenStream, title);
60 blog.setTitle(highLightText==null?title:highLightText);
61 }else{
62 blog.setTitle(title);
63 }
64 //加亮处理
65 if(mark!=null){
66 tokenStream = analyzer.tokenStream("content",new StringReader(mark));
67 String highLightText = highlighter.getBestFragment(tokenStream, mark);
68 blog.setContent(highLightText==null?mark:highLightText);
69 }else{
70 blog.setContent(mark);
71 }
72 blog.setBlogsId(Integer.valueOf(doc.get("blogsId")));
73 blog.setNickName(doc.get("nickName"));
74 blog.setbTypeId(doc.get("bTypeId"));
75 blog.setbTypeName(doc.get("bTypeName"));
76 blog.setRevDate(doc.get("gmt_create"));
77 SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMddHHmmss");
78 blog.setGmtCreate(sdf.parse(doc.get("gmt_create")));
79 blogList.add(blog);
80 }
81 indexSearch.close();
82 }catch (java.text.ParseException e) {
83 // TODO Auto-generated catch block
84 e.printStackTrace();
85 }catch (InvalidTokenOffsetsException e) {
86 // TODO Auto-generated catch block
87 e.printStackTrace();
88 }
89 return blogList;

 

 Lucene 3.5 在学习中,请多多指教!呵呵!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
lucene搜索分页过程中,可以有两种方式 一种是将搜索结果集直接放到session中,但是假如结果集非常大,同时又存在大并发访问的时候,很可能造成服务器的内存不足,而使服务器宕机 还有一种是每次都重新进行搜索,这样虽然避免了内存溢出的可能,但是,每次搜索都要进行一次IO操作,如果大并发访问的时候,你要保证你的硬盘的转速足够的快,还要保证你的cpu有足够高的频率 而我们可以将这两种方式结合下,每次查询都多缓存一部分的结果集,翻页的时候看看所查询的内容是不是在已经存在在缓存当中,如果已经存在了就直接拿出来,如果不存在,就进行查询后,从缓存中读出来. 比如:现在我们有一个搜索结果集 一个有100条数据,每页显示10条,就有10页数据. 安装第一种的思路就是,我直接把这100条数据缓存起来,每次翻页时从缓存种读取 而第二种思路就是,我直接从搜索到的结果集种显示前十条给第一页显示,第二页的时候,我在查询一次,给出10-20条数据给第二页显示,我每次翻页都要重新查询 第三种思路就变成了 我第一页仅需要10条数据,但是我一次读出来50条数据,把这50条数据放入到缓存当中,当我需要10--20之间的数据的时候,我的发现我的这些数据已经在我的缓存种存在了,我就直接存缓存中把数据读出来,少了一次查询,速度自然也提高了很多. 如果我访问第六页的数据,我就把我的缓存更新一次.这样连续翻页10次才进行两次IO操作 同时又保证了内存不容易被溢出.而具体缓存设置多少,要看你的服务器的能力和访问的人数来决定
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值