Solr lucene的一元、二元拆词

  首先需要导入:lucene-analyzers.jar

  下面代码分词的详解:

 

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;


/**
 * 一元分词和二元拆词
 * @author zhouguohui
 */
public class AnalyzerTest {
	 public static void main(String[] args) throws Exception{
		 String str = "测试一元分词和二元拆词拆分汉子,字母,数字等"; 
		 Standard_Analyzer(str);
		 Chiniese_Analyzer(str);
		 CJK_Analyzer(str);
   } 
	 
	 public static void Standard_Analyzer(String str) throws Exception{
         Analyzer analyzer = new StandardAnalyzer();       
         Reader r = new StringReader(str);       
         StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
         System.out.println("=====StandardAnalyzer   默认没有词只有字(一元分词)====");
         Token t;       
       while ((t = sf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
	 
	 public static void Chiniese_Analyzer(String str) throws Exception{
         Analyzer analyzer = new ChineseAnalyzer();       
         Reader r = new StringReader(str);       
         TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
         System.out.println("=====chinese analyzer   基本等同StandardAnalyzer(一元分词)====");
         Token t;       
       while ((t = tf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
	 
	 public static void CJK_Analyzer(String str) throws Exception{
         Analyzer analyzer = new CJKAnalyzer();       
         Reader r = new StringReader(str);       
         StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
         System.out.println("=====CJKAnalyzer       交叉双字分割(二元分词)====");
         Token t;       
       while ((t = sf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
}

运行结果为:

=====StandardAnalyzer   默认没有词只有字(一元分词)====
测
试
一
元
分
词
和
二
元
拆
词
拆
分
汉
子
字
母
数
字
等
=====chinese analyzer   基本等同StandardAnalyzer(一元分词)====
测
试
一
元
分
词
和
二
元
拆
词
拆
分
汉
子
字
母
数
字
等
=====CJKAnalyzer       交叉双字分割(二元分词)====
测试
试一
一元
元分
分词
词和
和二
二元
元拆
拆词
词拆
拆分
分汉
汉子
字母
数字
字等

 这两者没有什么太大的区别,第二种对中文分词支持的效果更好一些

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值