Elasticsearch分析分词器

查看分词

使用 analyze API 来看文本是如何被分析的,在消息体里,指定分析器和要分析的文本
http://hostName:端口/_analyze
{
“text”: “使用 analyz来看要分析的文本”
}
在这里插入图片描述
结果中每个汉字或单词代表一个单独的词条,token 是实际存储到索引中的词条。 position 指明词条在原始文本中出现的位置。
start_offset 和 end_offset 指明字符在原始字符串中的位置。这是标准分析器对文本进行的分析

指定分析器

安装中文分词器
Analyzer: ik_smart , ik_max_word
Tokenizer: ik_smart , ik_max_word

{
“analyzer”:“ik_max_word”,
“text”: “使用analyz来看要分析的文本”
}
在这里插入图片描述

  • ik_max_word:会将文本做最细粒度的拆分

  • ik_smart:会将文本做最粗粒度的拆分

ES扩展词汇

将文本当成一个词语,不可分割
{
“analyzer”:“ik_max_word”,
“text”: “我和你不分开”
}

  • config/analysis-ik目录,创建 custom.dic文件,写入文本
    在这里插入图片描述

  • 打开 IKAnalyzer.cfg.xml 文件,将新建的 custom.dic 配置其中

  • 重启 ES 服务器
    在这里插入图片描述

  • 查看分词结果
    在这里插入图片描述

自定义分析器

自定义分析器组合了三种函数

  • 字符过滤器
    来移除掉所有的 HTML 标签,转义特殊字符等。一个分析器可能有 0 个或者多个字符过滤器
  • 一个唯一的分词器
  • 词单元过滤器可以修改、添加或者移除词单元
    创建索引
    http://hostname:port/self_analyzer
{
    "settings": {
        "analysis": {
            "char_filter": {
                "&_to_and": {
                    "type": "mapping",
                    "mappings": ["&=> and "]
                }
            },
            "filter": {
                "self_stopwords": {
                    "type": "stop",
                    "stopwords": [ "转账", "股票"]
                }
            },
            "analyzer": {
                "self_analyzer": {
                    "type": "custom",
                    "char_filter": [
                        "html_strip",
                        "&_to_and"
                    ],
                    "tokenizer": "ik_max_word",
                    "filter": [
                        "lowercase",
                        "self_stopwords"
                    ]
                }
            }
        }
    }
}

检测自定义分析分词器
http://hostname:port/self_analyzer/_analyze
{
“analyzer”:“self_analyzer”,
“text”: "陌生人禁止转账 "
}
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值