analysis-pinyin分词器中各配置参数说明

fanchael_kui

于 2025-01-07 11:38:03 发布

阅读量1k

点赞数 25

文章标签： java 前端服务器

本文链接：https://blog.csdn.net/fanshukui/article/details/144981730

版权

Analysis - pinyin 分词器主要用于中文文本处理。它能将中文转换为拼音，在索引阶段丰富索引内容，提高召回率；在搜索阶段支持拼音匹配、纠错和模糊搜索，可用于文档管理、电商产品搜索等场景，拓展了搜索方式，方便用户查找内容。

{
	"keep_joined_full_pinyin": "true",
	"lowercase": "true",
	"none_chinese_pinyin_tokenize": "true",
	"keep_original": "true",
	"keep_first_letter": "true",
	"keep_separate_first_letter": "false",
	"type": "pinyin",
	"limit_first_letter_length": "50",
	"keep_full_pinyin": "false"
}

`1、tokenizer`（类型）

在analysis - pinyin分词器中，tokenizer用于指定分词的基本方式。通常设置为pinyin，表示使用拼音分词。这是告诉 Elasticsearch 按照拼音规则对输入的中文文本进行分词处理。例如，当输入 “中华人民共和国”，它会将每个汉字的拼音作为一个分词单元输出。