使用Lucene简单生成摘要

最新推荐文章于 2020-04-23 21:43:13 发布

chenbinGood

最新推荐文章于 2020-04-23 21:43:13 发布

阅读量532

点赞数

分类专栏：自然语言搜索引擎文章标签： c/c++

本文链接：https://blog.csdn.net/chenbinGood/article/details/84420807

版权

自然语言同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

搜索引擎

2 篇文章 0 订阅

订阅专栏

Lucene是apache一个开源的搜索引擎，我的需求是对一篇文章抽取其摘要，本人菜鸟，实现代码如下

public static String luceneSummary(String txt) throws ParseException, IOException, InvalidTokenOffsetsException{
		String pQuery= "穆 沙拉 法院"; //关键字
		
		Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>"); //高亮 
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
		QueryParser parser = new QueryParser(Version.LUCENE_30, "", analyzer);
		 Highlighter highlighter = new Highlighter(formatter , new QueryScorer(parser.parse(pQuery)));
//		 Fragmenter fragmenter = new SimpleFragmenter(100);   
//		 highlighter.setTextFragmenter(fragmenter);
		 highlighter.setTextFragmenter(new NullFragmenter()); //不要限制子多少
		 String[] strArray = txt.split("([。|，])");  //以逗号分隔传入的文章，逐句的提取摘要，这样的摘要最起码是一个句子
		 String text = "";
		
		 for(String str : strArray){  //循环每句话
			 String ret = highlighter.getBestFragment(analyzer, "", str);  
			 if(ret!=null){
				 text += ret+",";
				 if(text.length()>300)  //如果摘要累计300个字就停止
					 break;
			 }
			 
		 }
		return text;
	}

        public static void main(String[] args) throws IOException, ParseException, InvalidTokenOffsetsException {
            
            //args[0]传一篇文章试试就知道了    	    
            luceneSummary(args[0]);
	}