分布式搜索elasticsearch高级配置之（三）----------中文分词集成

最新推荐文章于 2020-04-07 12:08:14 发布

jingqiang521

最新推荐文章于 2020-04-07 12:08:14 发布

阅读量584

点赞数

分类专栏： 29、ElasticSearch

29、ElasticSearch 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国内最早研究es的人之一）写的两个中文分词插件，一个是ik的，一个是mmseg的，下面分别介绍下两者的用法，其实都差不多的，先安装插件，命令行：
安装ik插件：

[plain]view plaincopy 
   
 plugin -install medcl/elasticsearch-analysis-ik/1.1.0  

下载ik相关配置词典文件到config目录

[plain]view plaincopy 
   
 cd config  
 wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate  
 unzip ik.zip  
 rm ik.zip  

安装mmseg插件：

[plain]view plaincopy 
   
 bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0  

下载相关配置词典文件到config目录

[plain]view plaincopy 
   
 cd config  
 wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate  
 unzip mmseg.zip  
 rm mmseg.zip  

分词配置

ik分词配置，在elasticsearch.yml文件中加上

[html]view plaincopy 
   
 index:  
   analysis:                     
     analyzer:        
       ik:  
           alias: [ik_analyzer]  
           type: org.elasticsearch.index.analysis.IkAnalyzerProvider  

或

[html]view plaincopy 
   
 index.analysis.analyzer.ik.type : “ik”  

这两句的意义相同
mmseg分词配置，也是在在elasticsearch.yml文件中

[html]view plaincopy 
   
 index:  
   analysis:  
     analyzer:  
       mmseg:  
           alias: [news_analyzer, mmseg_analyzer]  
           type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider  

或

[html]view plaincopy 
   
 index.analysis.analyzer.default.type : "mmseg"  

mmseg分词还有些更加个性化的参数设置如下

[html]view plaincopy 
   
 index:  
   analysis:  
     tokenizer:  
       mmseg_maxword:  
           type: mmseg  
           seg_type: "max_word"  
       mmseg_complex:  
           type: mmseg  
           seg_type: "complex"  
       mmseg_simple:  
           type: mmseg  
           seg_type: "simple"  

这样配置完后插件安装完成，启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

[plain]view plaincopy 
   
 {  
    "page":{  
       "properties":{  
          "title":{  
             "type":"string",  
             "indexAnalyzer":"ik",  
             "searchAnalyzer":"ik"  
          },  
          "content":{  
             "type":"string",  
             "indexAnalyzer":"ik",  
             "searchAnalyzer":"ik"  
          }  
       }  
    }  
 }  

indexAnalyzer为索引时使用的分词器，searchAnalyzer为搜索时使用的分词器。

Java mapping代码如下：

[java]view plaincopy 
   
 XContentBuilder content = XContentFactory.jsonBuilder().startObject()  
         .startObject("page")  
           .startObject("properties")         
             .startObject("title")  
               .field("type", "string")             
               .field("indexAnalyzer", "ik")  
               .field("searchAnalyzer", "ik")  
             .endObject()   
             .startObject("code")  
               .field("type", "string")           
               .field("indexAnalyzer", "ik")  
               .field("searchAnalyzer", "ik")  
             .endObject()       
           .endObject()  
          .endObject()  
        .endObject()  

定义完后操作索引就会以指定的分词器来进行分词。

测试分词可用调用下面api，注意indexname为索引名，随便指定一个索引就行了
http://localhost:9200/indexname/_analyze?analyzer=ik&text=测试elasticsearch分词器

附：

ik分词插件项目地址：https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插件项目地址：https://github.com/medcl/elasticsearch-analysis-mmseg

如果觉得配置麻烦，也可以下载个配置好的es版本，地址如下：https://github.com/medcl/elasticsearch-rtf

本文地址：http://blog.csdn.NET/laigood12345/article/details/7795115
参考资料：http://www.searchtech.pro/articles/2013/02/18/1361190717673.html

jingqiang521

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式搜索elasticsearch高级配置之（三）----------中文分词集成

elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国内最早研究es的人之一）写的两个中文分词插件，一个是ik的，一个是mmseg的，下面分别介绍下两者的用法，其实都差不多的，先安装插件，命令行：安装ik插件：[plain] view plain copyplugin -install me
复制链接

扫一扫

专栏目录