Elasticsearch 系列指南(三)——集成ik分词器

本文介绍了Elasticsearch中的分词器,包括标准分词器、Simple分词器和IK分词器的特性比较。重点讨论了IK分词器的安装过程,并通过创建数据和录入测试数据,展示了搜索关键词‘最新’和‘fox’的效果。作者分享了自己的最佳配置,以及如何进行热词更新配置,以实现对中文、英文等多种文本的良好分析效果。
摘要由CSDN通过智能技术生成

Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如“the”这个词)等;chinese 效果很差。这次主要玩这几个内容:安装中文分词ik,对比不同分词器的效果,得出一个较佳的配置。

IK分析插件将Lucene IK分析器(http://code.google.com/p/ik-analyzer/)集成到elasticsearch中,支持自定义字典。

分析:ik_smartik_max_word,分词:ik_smartik_max_word

分词器对比:
POST http://192.168.159.159:9200/index1/_analyze?analyzer=ik_max_word
联想召回笔记本电源线
ik测试结果:
{
    "tokens": [
        {
            "token": "联想",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "召回",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "笔记本",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "电源线",
            "start_offset": 7,
            "end_offset": 10,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}
自带chinese和standard分词器的结果:
{
    "tokens": [
        {
            &
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值