使用Lucene简单生成摘要

Lucene是apache一个开源的搜索引擎,我的需求是对一篇文章抽取其摘要,本人菜鸟,实现代码如下

public static String luceneSummary(String txt) throws ParseException, IOException, InvalidTokenOffsetsException{
		String pQuery= "穆 沙拉 法院"; //关键字
		
		Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>"); //高亮 
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
		QueryParser parser = new QueryParser(Version.LUCENE_30, "", analyzer);
		 Highlighter highlighter = new Highlighter(formatter , new QueryScorer(parser.parse(pQuery)));
//		 Fragmenter fragmenter = new SimpleFragmenter(100);   
//		 highlighter.setTextFragmenter(fragmenter);
		 highlighter.setTextFragmenter(new NullFragmenter()); //不要限制子多少
		 String[] strArray = txt.split("([。|,])");  //以逗号分隔传入的文章,逐句的提取摘要,这样的摘要最起码是一个句子
		 String text = "";
		
		 for(String str : strArray){  //循环每句话
			 String ret = highlighter.getBestFragment(analyzer, "", str);  
			 if(ret!=null){
				 text += ret+",";
				 if(text.length()>300)  //如果摘要累计300个字就停止
					 break;
			 }
			 
		 }
		return text;
	}

        public static void main(String[] args) throws IOException, ParseException, InvalidTokenOffsetsException {
            
            //args[0]传一篇文章试试就知道了    	    
            luceneSummary(args[0]);
	}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值