Lucene中常用的几个分词器

最新推荐文章于 2022-09-03 13:12:32 发布

sofuzi

最新推荐文章于 2022-09-03 13:12:32 发布

阅读量2.9k

点赞数 1

分类专栏： JAVA

JAVA 专栏收录该内容

23 篇文章 3 订阅

订阅专栏

来自网页：http://blog.csdn.net/ceclar123/article/details/10150839

一、WhitespaceAnalyzer

以空格作为切词标准，不对语汇单元进行其他规范化处理。很明显这个实用英文，单词之间用空格。

[java]view plaincopy
package bond.lucene.analyzer;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.util.Version;  
  
public class WhitespaceAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
            // "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
            String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";  
  
            // 空格分词器(以空格作为切词标准，不对语汇单元进行其他规范化处理)  
            WhitespaceAnalyzer wsa = new WhitespaceAnalyzer(Version.LUCENE_44);  
  
            TokenStream ts = wsa.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
  
    }  
}  

二、SimpleAnalyzer

以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符。很明显不适用于中文环境。

[java]view plaincopy
package bond.lucene.analyzer;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.core.SimpleAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.util.Version;  
  
public class SimpleAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
            // "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
            String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";  
  
            // 简单分词器(以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符)  
            SimpleAnalyzer sa = new SimpleAnalyzer(Version.LUCENE_44);  
  
            TokenStream ts = sa.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }  
  
}  

三、StopAnalyzer

停顿词分析器会去除一些常有a,the,an等等，也可以自定义禁用词，不适用于中文环境

[java]view plaincopy
package bond.lucene.analyzer;  
  
import java.util.Iterator;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.core.StopAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.analysis.util.CharArraySet;  
import org.apache.lucene.util.Version;  
  
public class StopAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
            // "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
            String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";  
  
            // 自定义停用词  
            String[] self_stop_words = { "分析", "release", "Apache" };  
            CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);  
            for (int i = 0; i < self_stop_words.length; i++) {  
                cas.add(self_stop_words[i]);  
            }  
  
            // 加入系统默认停用词  
            Iterator<Object> itor = StopAnalyzer.ENGLISH_STOP_WORDS_SET.iterator();  
            while (itor.hasNext()) {  
                cas.add(itor.next());  
            }  
  
            // 停用词分词器(去除一些常有a,the,an等等，也可以自定义禁用词)  
            StopAnalyzer sa = new StopAnalyzer(Version.LUCENE_44, cas);  
  
            TokenStream ts = sa.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }  
}  

四、StandardAnalyzer

标准分析器是Lucene内置的分析器,会将语汇单元转成小写形式，并去除停用词及标点符号，很明显也是不适合于中文环境

[java]view plaincopy
package bond.lucene.analyzer;  
  
import java.util.Iterator;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.analysis.util.CharArraySet;  
import org.apache.lucene.util.Version;  
  
public class StandardAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
            // "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
            String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";  
  
            // 自定义停用词  
            String[] self_stop_words = { "Lucene", "release", "Apache" };  
            CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);  
            for (int i = 0; i < self_stop_words.length; i++) {  
                cas.add(self_stop_words[i]);  
            }  
  
            // 加入系统默认停用词  
            Iterator<Object> itor = StandardAnalyzer.STOP_WORDS_SET.iterator();  
            while (itor.hasNext()) {  
                cas.add(itor.next());  
            }  
  
            // 标准分词器(Lucene内置的标准分析器,会将语汇单元转成小写形式，并去除停用词及标点符号)  
            StandardAnalyzer sa = new StandardAnalyzer(Version.LUCENE_44, cas);  
  
            TokenStream ts = sa.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }  
  
}  

五、CJKAnalyzer

中日韩分析器，能对中，日，韩语言进行分析的分词器，但是对中文支持效果一般，一般不用

[java]view plaincopy
package bond.lucene.analyzer;  
  
import java.util.Iterator;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.cjk.CJKAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.analysis.util.CharArraySet;  
import org.apache.lucene.util.Version;  
  
public class CJKAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
  
            // "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";  
            String text = "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
  
            // 自定义停用词  
            String[] self_stop_words = { "使用", "一个", "管道" };  
            CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);  
            for (int i = 0; i < self_stop_words.length; i++) {  
                cas.add(self_stop_words[i]);  
            }  
  
            // 加入系统默认停用词  
            Iterator<Object> itor = CJKAnalyzer.getDefaultStopSet().iterator();  
            while (itor.hasNext()) {  
                cas.add(itor.next());  
            }  
  
            // CJK分词器(C:China;J:Japan;K:Korea;能对中，日，韩语言进行分析的分词器，对中文支持效果一般,基本不用于中文分词)  
            CJKAnalyzer sa = new CJKAnalyzer(Version.LUCENE_44, cas);  
  
            TokenStream ts = sa.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }  
  
}  

六、SmartChineseAnalyzer

对中文支持稍好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理

[java]view plaincopy
package bond.lucene.analyzer;  
  
import java.util.Iterator;  
  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.apache.lucene.analysis.util.CharArraySet;  
import org.apache.lucene.util.Version;  
  
public class SmartChineseAnalyzerTest {  
  
    public static void main(String[] args) {  
        try {  
            // 要处理的文本  
            String text = "lucene分析器使用分词器和过滤器构成一个“管道”，文本在流经这个管道后成为可以进入索引的最小单位，因此，一个标准的分析器有两个部分组成，一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter，它主要作用是对切出来的词进行进一步的处理（如去掉敏感词、英文大小写转换、单复数处理）等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理";  
  
            // 自定义停用词  
            String[] self_stop_words = { "的", "了", "呢", "，", "0", "：", ",", "是", "流" };  
            CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);  
            for (int i = 0; i < self_stop_words.length; i++) {  
                cas.add(self_stop_words[i]);  
            }  
  
            // 加入系统默认停用词  
            Iterator<Object> itor = SmartChineseAnalyzer.getDefaultStopSet().iterator();  
            while (itor.hasNext()) {  
                cas.add(itor.next());  
            }  
  
            // 中英文混合分词器(其他几个分词器对中文的分析都不行)  
            SmartChineseAnalyzer sca = new SmartChineseAnalyzer(Version.LUCENE_44, cas);  
  
            TokenStream ts = sca.tokenStream("field", text);  
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);  
  
            ts.reset();  
            while (ts.incrementToken()) {  
                System.out.println(ch.toString());  
            }  
            ts.end();  
            ts.close();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }  
  
}