Lucene4.3开发之中文分词器

最新推荐文章于 2014-12-09 16:37:59 发布

NM_IT

最新推荐文章于 2014-12-09 16:37:59 发布

阅读量769

点赞数

分类专栏： lucene 文章标签： lucene 搜索索引

本文链接：https://blog.csdn.net/u010395804/article/details/36412951

版权

lucene 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

对于Lucene4.3开发首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新。

笔者比较推荐的中文分词器是IK分词器，在进入正式的讲解之前，我们首先对Lucene里面内置的几个分析器做个了解。

分析器类型基本介绍

    WhitespaceAnalyzer 以空格作为切词标准，不对语汇单元进行其他规范化处理
    SimpleAnalyzer 以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符
    StopAnalyzer 该分析器会去除一些常有a,the,an等等，也可以自定义禁用词
    StandardAnalyzer Lucene内置的标准分析器，会将语汇单元转成小写形式，并去除停用词及标点符号
    CJKAnalyzer 能对中，日，韩语言进行分析的分词器，对中文支持效果一般。
    SmartChineseAnalyzer 对中文支持稍好，但扩展性差

评价一个分词器的性能优劣，关键是看它的切词效率以及灵活性，及扩展性，通常情况下一个良好的中文分词器，应该具备扩展词库，禁用词库和同义词库，当然最关键的是还得要与自己的业务符合，因为有些时候我们用不到一些自定义词库，所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的，但是对于solr的支持就不够好了，需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本，并对扩展词库，禁用词库，同义词库完全支持，而且在solr里面配置很简单，只需要在schmal.xml进行简单配置，即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能，如果你想使用，得需要自己修改下源码了，不过即使自己修改扩展同义词也是非常容易的。

下面笔者给出使用官网最后一版发布的IK在Lucene中做的测试，笔者使用的已经扩展了同义词库部分，后面会给出源码。

下面先看第一个纯分词的测试

  package com.ikforlucene;
    import java.io.StringReader;
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    public class Test {
    public static void main（String[] args）throws Exception {
    //下面这个分词器，是经过修改支持同义词的分词器
    IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer（）；
    String text="三劫散仙是一个菜鸟";
    TokenStream ts=analyzer.tokenStream（"field", new StringReader（text））；
    CharTermAttribute term=ts.addAttribute（CharTermAttribute.class）；
    ts.reset（）；//重置做准备
    while（ts.incrementToken（））{
    System.out.println（term.toString（））；
    }
    ts.end（）；//
    ts.close（）；//关闭流
    }
    }
    package com.ikforlucene;
    import java.io.StringReader;
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    public class Test {
    public static void main（String[] args）throws Exception {
    //下面这个分词器，是经过修改支持同义词的分词器
    IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer（）；
    String text="三劫散仙是一个菜鸟";
    TokenStream ts=analyzer.tokenStream（"field", new StringReader（text））；
    CharTermAttribute term=ts.addAttribute（CharTermAttribute.class）；
    ts.reset（）；//重置做准备
    while（ts.incrementToken（））{
    System.out.println（term.toString（））；
    }
    ts.end（）；//
    ts.close（）；//关闭流
    }
    }
<strong><a target=_blank class="channel_keylink" href="http://softtest.chinaitlab.com" target="_blank"></a></strong><pre name="code" class="java">  运行结果：

    Java代码
    三
    劫
    散
    仙
    是
    一个
    菜鸟
    三
    劫
    散
    仙
    是
    一个
    菜鸟

    第二步，测试扩展词库，使三劫为一个词，散仙为一个词，需要在同义词库里添加三劫，散仙（注意是按行读取的），注意保存的格式为UTF-8或无BOM格式即可添加扩展词库后运行结果如下：

    Java代码
    package com.ikforlucene;
    import java.io.IOException;
    import java.io.Reader;
    import java.util.HashMap;
    import java.util.Map;
    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.Tokenizer;
    import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
    import org.apache.solr.core.SolrResourceLoader;
    import org.wltea.analyzer.lucene.IKTokenizer;
    /**
    * 可以加载同义词库的Lucene
    * 专用IK分词器
    *
    *
    * */
    public class IKSynonymsAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents（String arg0, Reader arg1） {
    Tokenizer token=new IKTokenizer（arg1, true）；//开启智能切词
    Map paramsMap=new HashMap（）；
    paramsMap.put（"luceneMatchVersion", "LUCENE_43"）；
    paramsMap.put（"synonyms", "E:\\同义词\\synonyms.txt"）；
    SynonymFilterFactory factory=new SynonymFilterFactory（paramsMap）；
    SolrResourceLoader loader= new SolrResourceLoader（""）；
    try {
    factory.inform（loader）；
    } catch （IOException e） {
    // TODO Auto-generated catch block
    e.printStackTrace（）；
    }
    return new TokenStreamComponents（token, factory.create（token））；
    }
    }
    package com.ikforlucene;
    import java.io.IOException;
    import java.io.Reader;
    import java.util.HashMap;
    import java.util.Map;
    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.Tokenizer;
    import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
    import org.apache.solr.core.SolrResourceLoader;
    import org.wltea.analyzer.lucene.IKTokenizer;
    /**
    * 可以加载同义词库的Lucene
    * 专用IK分词器
    *
    *
    * */
    public class IKSynonymsAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents（String arg0, Reader arg1） {
    Tokenizer token=new IKTokenizer（arg1, true）；//开启智能切词
    Map paramsMap=new HashMap（）；
    paramsMap.put（"luceneMatchVersion", "LUCENE_43"）；
    paramsMap.put（"synonyms", "E:\\同义词\\synonyms.txt"）；
    SynonymFilterFactory factory=new SynonymFilterFactory（paramsMap）；
    SolrResourceLoader loader= new SolrResourceLoader（""）；
    try {
    factory.inform（loader）；
    } catch （IOException e） {
    // TODO Auto-generated catch block
    e.printStackTrace（）；
    }
    return new TokenStreamComponents（token, factory.create（token））；
    }
    }

    关于同义词部分的使用，各位道友，可以先去官网上下载源码，然后将此同义词扩展部分放进去即可，非常简单方便。

NM_IT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene4.3开发之中文分词器

对于Lucene4.3开发首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新。笔者比较推荐的中文分词器是IK分词器，在进入正式的讲解之前，我们首先对Lucene里面内置的几个分析器
复制链接

扫一扫

专栏目录