Solr java IKAnalyzer词库

最新推荐文章于 2021-06-03 14:52:52 发布

青梅煮酒-竹马为梦

最新推荐文章于 2021-06-03 14:52:52 发布

阅读量213

点赞数

分类专栏： solr 文章标签： solr

本文链接：https://blog.csdn.net/u014027254/article/details/84695342

版权

solr 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

首先需要引入一下两个包：

IKAnalyzer2012FF_u1.jar

lucene-core-4.3.1.jar

如果想和服务器上的停词库同步可以把stopword.dic拷贝进来。

别的什么都不需要进行配置，代码如下

/**
 * IK分词器两种写法
 * @author zhouguohui
 *
 */
public class test {
    public static void main( String[] args ){
    	test1();
    	test2();
    }
    
    /**
     * 使用IK实现
     */
    public static void test1(){
    	try {
			String text="基于IK分词器的两种不同写法的分词工具，这是第一种";  
	        //创建分词对象  
	        Analyzer anal=new IKAnalyzer(true);  
	        StringReader reader=new StringReader(text);
	        //分词  
			TokenStream ts = anal.tokenStream("", reader);
			CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  
			 //遍历分词数据  
	        while(ts.incrementToken()){  
	            System.out.print(term.toString()+"|");  
	        }  
	        reader.close();  
	        System.out.println();
			
		} catch (IOException e) {
			e.printStackTrace();
		}  
    }
    
    /**
     * 使用lucene实现
     */
    public static void test2(){
    	try{
	       String text="基于IK分词器的两种不同写法的分词工具，这是第二种";  
	        StringReader sr=new StringReader(text);  
            IKSegmenter ik=new IKSegmenter(sr, true);  
	        Lexeme lex=null;  
	        while((lex=ik.next())!=null){  
	           System.out.print(lex.getLexemeText()+"|");  
	       }  
	    } catch (IOException e) {
			e.printStackTrace();
		} 
    }
}

运行结果为：

基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第一种|
基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第二种|

青梅煮酒-竹马为梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Solr java IKAnalyzer词库

首先需要引入一下两个包：IKAnalyzer2012FF_u1.jarlucene-core-4.3.1.jar如果想和服务器上的停词库同步可以把stopword.dic拷贝进来。别的什么都不需要进行配置，代码如下/** * IK分词器两种写法 * @author zhouguohui * */public class test { publi...
复制链接

扫一扫

专栏目录