1.概述
翻译:https://www.elastic.co/cn/blog/how-to-search-ch-jp-kr-part-3
这是我有关中文、日语和韩语文本搜索的系列文章的第 3 部分。如果您还没有阅读有关分析工具的第 1 部分,您可能希望先阅读这一部分。如果您已阅读完第 1 部分,如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 2 部分:多字段介绍了通过多字段对以多种语言编写的文档进行索引和搜索的方法。然而,如果不管任何语言,我们都将文本存储在四个字段内并使用四种分析工具进行分析,这可能会浪费我们的宝贵时间和存储空间。现在,我们将尝试通过语言检测工具来进行优化。和之前一样,文本仍然节选自 https://www.pyeongchang2018.com/en/about-the-games
语言检测工具
我们可以安装并利用可检测语言的摄取插件来节省时间和存储空间。下面的摄取管道会检测“正文”字段的语言并且会通过语言检测处理器将检测到的语言放到“语言”字段中,而非将其索引至主字段和三个子字段中。然后脚本处理器会将“正文”字段的内容复制到具体语言的字段中(english_field、korean_field、japanese_field 或 chinese_field)进行分析。
PUT _ing