ElasticSearch 实战： ES 中文分词 – 结巴分词

用心去追梦

于 2024-04-04 23:24:43 发布

阅读量389

点赞数 5

文章标签： elasticsearch 中文分词 jenkins

本文链接：https://blog.csdn.net/qq_33240556/article/details/137385545

版权

Elasticsearch（ES）默认提供的分词器对英文文本有较好的处理能力，但对于中文文本，由于其语法和词汇特性，通常需要使用专门的中文分词器。结巴分词（Jieba）是一款流行的Python实现的中文分词库，以其较高的分词准确率和丰富的功能受到青睐。尽管结巴分词本身并非为Elasticsearch设计，但可以通过以下几种方式将其与Elasticsearch结合使用：

1. 使用 Elasticsearch 插件集成结巴分词

插件：jieba-analysis

简介：jieba-analysis 是一个基于结巴分词的 Elasticsearch 分词插件，提供了 jieba 和 jieba_search 两种分词器，分别对应结巴的精确模式和搜索模式。

安装与配置：

下载：访问插件仓库（如 GitHub）下载对应Elasticsearch版本的插件包。
安装：将下载的插件包放入 Elasticsearch 安装目录的 plugins 子目录下。
重启：重启 Elasticsearch 服务，使插件生效。
映射：在索引映射中指定使用结巴分词器，如 "analyzer": "jieba" 或 "analyzer": "jieba_search"。

示例：

# 下载插件
wget https://github.com/medcl/elasticsearch-analysis-jieba/releases/download/v<version>/elasticsearch-analysis-jieba-<version>.zip

# 解压至插件目录
unzip elasticsearch-analysis-jieba-<version>.zip -d /path/to/elasticsearch/plugins/jieba-analysis

# 重启 Elasticsearch 服务
systemctl restart elasticsearch.service

# 在索引映射中使用结巴分词器
curl -X PUT "localhost:9200/my_index?pretty" -H 'Content-Type: application/json' -d'
{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "jieba"
      }
    }
  }
}'

2. 使用 Elasticsearch 的 `plugin` 命令安装插件

对于某些版本的 jieba-analysis 插件，可能提供了通过Elasticsearch自带的plugin命令进行安装的方式：

# 在Elasticsearch的bin目录下执行
./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-jieba/releases/download/v<version>/elasticsearch-analysis-jieba-<version>.zip

3. 使用 Elasticsearch 的 `analysis-icu` 插件配合结巴分词

插件：analysis-icu

简介：analysis-icu 是 Elasticsearch 提供的 ICU 分析器插件，支持多种国际化和 Unicode 功能。它可以与结巴分词结合，先使用 ICU 分析器进行预处理（如转为小写、标准化等），再通过结巴分词进行分词。

安装与配置：

安装：使用 Elasticsearch 自带的 plugin 命令安装 analysis-icu 插件。
映射：在索引映射中创建自定义分析器，结合 icu_tokenizer 和结巴分词器。

示例：

# 安装 analysis-icu 插件
./elasticsearch-plugin install analysis-icu

# 在索引映射中创建自定义分析器
curl -X PUT "localhost:9200/my_index?pretty" -H 'Content-Type: application/json' -d'
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_jieba_analyzer": {
          "type": "custom",
          "tokenizer": "icu_tokenizer",
          "filter": [
            "icu_normalizer",
            "icu_folding",
            "jieba"
          ]
        }
      },
      "filter": {
        "jieba": {
          "type": "jieba"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_jieba_analyzer"
      }
    }
  }
}'

4. 使用 Logstash 或自定义应用集成结巴分词

Logstash：

简介：Logstash 是 Elastic Stack 中的数据收集与处理工具，可以对接多种数据源，并通过插件将数据发送到 Elasticsearch。
集成：使用 Logstash 的 python 插件调用结巴分词库，对文本字段进行分词后再发送至 Elasticsearch。

自定义应用：

简介：在数据入库前，通过自定义的 Python、Java 或其他语言的应用程序，调用结巴分词库对文本进行分词处理，然后按照 Elasticsearch 的批量插入接口格式化数据并发送。

5. 使用 Elasticsearch 的 `analysis-plugin` API 集成结巴分词

API：

简介：Elasticsearch 提供了 analysis-plugin API，允许动态加载外部分析插件。虽然官方文档中并未明确提及与结巴分词的集成，但理论上可以尝试通过此 API 将结巴分词作为外部插件引入。

集成：

编译：将结巴分词库编译为符合 Elasticsearch 要求的插件格式。
加载：通过 POST /_analysis/plugin API 加载编译好的结巴分词插件。
配置：在索引映射中使用加载的结巴分词器。

请注意，上述第5种方式可能需要对结巴分词库进行深度定制和编译工作，实际可行性取决于 Elasticsearch 版本和结巴分词库的兼容性。在实践中，建议优先考虑前4种更为成熟和易用的方法来将结巴分词与 Elasticsearch 集成。

用心去追梦

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch 实战： ES 中文分词 – 结巴分词

Logstash简介：Logstash 是 Elastic Stack 中的数据收集与处理工具，可以对接多种数据源，并通过插件将数据发送到 Elasticsearch。集成：使用 Logstash 的python插件调用结巴分词库，对文本字段进行分词后再发送至 Elasticsearch。自定义应用简介：在数据入库前，通过自定义的 Python、Java 或其他语言的应用程序，调用结巴分词库对文本进行分词处理，然后按照 Elasticsearch 的批量插入接口格式化数据并发送。
复制链接

扫一扫