es-ik分词器的拓展和停用字典

30 篇文章 0 订阅
21 篇文章 0 订阅

目录

一、分词器


一、分词器

  • 分词器的作用是什么?

        创建倒排索引时对文档分词
        用户搜索时,对输入的内容分词

  • IK分词器有几种模式?

        ik_smart:智能切分,粗粒度
        ik_max_word:最细切分,细粒度

  • IK分词器如何拓展词条?如何停用词条?

        利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典
        在词典中添加拓展词条或者停用词条

ik分词器-拓展词库

要拓展ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>

        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->

        <entry key="ext_dict">ext.dic</entry>

</properties> 

ik分词器-停用词库

要禁用某些敏感词条,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://javasun.com/dtd/properties.dtd">

<properties>
        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典-->

        <entry key="ext_dict">ext.dic</entry>

        <!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典-->

        <entry key="ext_stopwords">stopword.dic</entry>

</properties> 

 二、分词器字典的扩展与停用

 2.1 打开IkAnalyzer.cfq.xml文件

添加扩展词字典、停止词字典

2.2 在同级目录下新建 ext.dic 文件(扩展词)
 2.3 在同级目录下找到 stopword.dic 文件(禁用词)并编辑,用于禁用分词

2.4 重启即可完成 
  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要在 Elasticsearch 上安装 IK 分词器,需要以下几步操作: 1. 下载 IK 分词器插件,并将其复制到 Elasticsearch 插件目录中。 2. 使用 Elasticsearch 的命令行工具安装插件,例如: ``` bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip ``` 3. 重启 Elasticsearch 节点,使 IK 分词器生效。 4. 在你的索引的映射中使用 IK 分词器,例如: ``` PUT my_index { "mappings": { "_doc": { "properties": { "message": { "type": "text", "analyzer": "ik_max_word" } } } } } ``` 这样 IK 分词器就安装完成了。 ### 回答2: Elasticsearch是一个广泛应用于全文搜索、日志分析、业务指标和数据分析等领域的开源搜索引擎,对于中文搜索的支持是非常重要的。而IK分词器为其提供了中文分词的支持。本答案将为您解释如何安装IK分词器。 1. 下载IK分词器: 首先需要下载适用于您当前使用的Elasticsearch版本的IK分词器,可以在开源中国上下载。下载后将其解压至任意目录,例如解压到“C:\ik”。 2. 安装IK分词器: 将解压后的IK分词器安装到Elasticsearch。只需在Elasticsearch的根目录下启动终端,通过以下命令安装IK分词器: ``` ./bin/elasticsearch-plugin install file:///PATH_TO_FILE/ik-plugin-x.x.x.zip ``` 其中,PATH_TO_FILE即为解压后保存IK分词器的路径。"x.x.x"为IK分词器的版本号,替换为实际的版本号。 3. 测试IK分词器: 在Elasticsearch中创建索引,指定使用IK分词器: ``` PUT /my_index { "settings": { "analysis": { "analyzer": { "ik_analyzer": { "type": "custom", "tokenizer": "ik_smart" } } } } } ``` 以上示例将IK分词器设置为my_index索引的默认分词器。可通过以下命令来测试IK分词器的效果: ``` GET /my_index/_analyze { "analyzer": "ik_analyzer", "text": "中文分词测试" } ``` 以上即为安装IK分词器的步骤和测试方法,通过以上步骤可以快速、方便地为您的Elasticsearch添加中文搜索的支持。 ### 回答3: Elasticsearch是一个开源的搜索引擎,它可以帮助用户快速和准确地检索大量的数据。而IK分词器则是一款中文分词插件,它可以将中文文本分解为词语,从而提高搜索结果的准确性。那么,如何在Elasticsearch中安装IK分词器呢? 安装方法如下: Step 1:下载ik分词器插件 可以从GitHub下载最新的ik分词器此时版本为7.11.2 wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.11.2/elasticsearch-analysis-ik-7.11.2.zip Step 2:解压ik插件 将下载好的插件解压到elasticsearch的plugins目录中: unzip elasticsearch-analysis-ik-7.11.2.zip -d /path/to/elasticsearch-<version>/plugins/ Step 3:重启ElasticSearch 重启Elasticsearch服务器,使插件生效: ./elasticsearch Step 4:安装分词器 使用curl命令安装中文分词器: curl -H "Content-Type: application/json" -X PUT --data-binary @/path/to/config/location/ik_index_settings.json http://localhost:9200/_settings curl -H "Content-Type: application/json" -X PUT --data-binary @/path/to/config/location/ik_synonyms.json http://localhost:9200/_settings Step 5:创建测试索引 为了测试是否安装成功,可以创建一个测试索引和mapping: curl -H "Content-Type: application/json" -X PUT --data-binary @/path/to/config/location/ik_test_index.json http://localhost:9200/ik_test 注意事项: - 确认Elasticsearch和插件版本是否一致。 - 插件应该安装在每个Elasticsearch节点上的plugins目录中。 - 确认分词器的配置是否正确。 - 在添加文档时,使用正确的字段名和正确的分词器。 总之,以上是在Elasticsearch中安装IK分词器的方法,如果您遇到了什么问题,请详细阅读官方文档或向社区寻求帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值