Lucene4.9基础学习第四步

最新推荐文章于 2022-03-09 20:09:51 发布

ItJavawfc

最新推荐文章于 2022-03-09 20:09:51 发布

阅读量840

点赞数

文章标签： Lucene4.9基础学习第四步分词

本文链接：https://blog.csdn.net/ItJavawfc/article/details/38539603

版权

前面几章笔者把Lucene基本入门的任督二脉给打通了，从此篇开始，就开始进行Lucene的进阶开发了，那么首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新。

package com.wfc.lucene_1;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

public class Test_1 {

	public static void main(String[] args)throws Exception {  
        //下面这个分词器，是经过修改支持同义词的分词器  
		StandardAnalyzer analyzer=new StandardAnalyzer(Version.LUCENE_4_9);  
String text="三劫散仙是一个菜鸟";  
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));  
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);  
ts.reset();//重置做准备  
while(ts.incrementToken()){  
  System.out.println(term.toString());  
}  
ts.end();//  
ts.close();//关闭流  
}  
}