Elasticsearch 系列指南（三）——集成ik分词器

最新推荐文章于 2024-08-02 10:42:09 发布

我叫周伯通

最新推荐文章于 2024-08-02 10:42:09 发布

阅读量6.1k

点赞数 1

分类专栏：搜索文章标签： Java 搜索

本文链接：https://blog.csdn.net/mjwwjcoder/article/details/79104859

版权

本文介绍了Elasticsearch中的分词器，包括标准分词器、Simple分词器和IK分词器的特性比较。重点讨论了IK分词器的安装过程，并通过创建数据和录入测试数据，展示了搜索关键词‘最新’和‘fox’的效果。作者分享了自己的最佳配置，以及如何进行热词更新配置，以实现对中文、英文等多种文本的良好分析效果。

摘要由CSDN通过智能技术生成

Elasticsearch中，内置了很多分词器（analyzers），例如standard （标准分词器）、english （英文分词）和chinese （中文分词）。其中standard 就是无脑的一个一个词（汉字）切分，所以适用范围广，但是精准度低；english 对英文更加智能，可以识别单数负数，大小写，过滤stopwords（例如“the”这个词）等；chinese 效果很差。这次主要玩这几个内容：安装中文分词ik，对比不同分词器的效果，得出一个较佳的配置。

IK分析插件将Lucene IK分析器（http://code.google.com/p/ik-analyzer/）集成到elasticsearch中，支持自定义字典。

分析：ik_smart，ik_max_word，分词：ik_smart，ik_max_word

分词器对比：

POST http://192.168.159.159:9200/index1/_analyze?analyzer=ik_max_word
联想召回笔记本电源线

ik测试结果：

{
    "tokens": [
        {
            "token": "联想",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "召回",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "笔记本",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "电源线",
            "start_offset": 7,
            "end_offset": 10,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

自带chinese和standard分词器的结果：

{
    "tokens": [
        {
            &

最低0.47元/天解锁文章

我叫周伯通

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录