文本分析概述（Overview）

EulerBlind

已于 2023-12-20 09:58:18 修改

阅读量29

点赞数

分类专栏： Elasticsearch 文章标签： elasticsearch

于 2023-12-20 09:33:34 首次发布

原文链接：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-overview.html

版权

Elasticsearch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

目录

文本分析使Elasticsearch能够执行全文搜索，搜索将返回所有相关的结果，而不仅仅是精确匹配。

分词（Tokenization）

规则化（Normalization）

自定义文本分析（Customize text analysis）

文本分析使Elasticsearch能够执行全文搜索，搜索将返回所有相关的结果，而不仅仅是精确匹配。

如果您搜索 Quick fox jumps，您可能希望找到包含 A quick brown fox jumps over the lazy dog 的文档，您可能还想要包含相关词汇如 fast fox 或 foxes leap 的文档。

分词（Tokenization）

通过分词，分析使全文搜索成为可能：将文本拆分为称为标记的较小块。在大多数情况下，这些标记是单独的单词。

如果将短语 "the quick brown fox jumps" 作为单个字符串进行索引，而用户搜索 "quick fox"，则不会被视为匹配。然而，如果对短语进行分词并单独索引每个单词，查询字符串中的术语可以被单独查找。这意味着它们可以通过搜索 "quick fox"、"fox brown" 或其他变体进行匹配。

规则化（Normalization）

分词使得能够在单个术语上进行匹配，但每个标记仍然被字面匹配。这意味着：

对于 Quick 的搜索不会匹配 quick，尽管您可能希望其中一个术语匹配另一个。
虽然 fox 和 foxes 共享相同的词根，但搜索 foxes 不会匹配 fox，反之亦然。
对于 jumps 的搜索不会匹配 leaps。虽然它们没有共同的词根，但它们是同义词，具有相似的含义。

为了解决这些问题，文本分析可以将这些标记规范化为标准格式。这使您能够匹配那些与搜索术语不完全相同但足够相似以仍然相关的标记。例如：

Quick 可以转换为小写形式：quick。
foxes 可以进行词干提取，或缩减为其词根：fox。
jump 和 leap 是同义词，可以索引为一个词：jump。

为确保搜索术语按预期匹配这些单词，可以将相同的分词和规范化规则应用于查询字符串。例如，对于 Foxes leap 的搜索可以规范化为对 fox jump 的搜索。

自定义文本分析（Customize text analysis）

文本分析由分析器执行，它是管理整个过程的一组规则。

Elasticsearch包含一个默认的分析器，称为标准分析器，它在大多数情况下都能立即使用。

如果您想个性化搜索体验，可以选择不同的内置分析器，甚至配置一个自定义分析器。自定义分析器允许您控制分析过程的每个步骤，包括：

在标记化之前对文本进行的更改
将文本转换为标记的方式
在索引或搜索之前对标记进行的规范化更改

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本分析概述（Overview）

目录文本分析使Elasticsearch能够执行全文搜索，搜索将返回所有相关的结果，而不仅仅是精确匹配。分词（Tokenization）规则化（Normalization）自定义文本分析（Customize text analysis）文本分析使Elasticsearch能够执行全文搜索，搜索将返回所有相关的结果，而不仅仅是精确匹配。如果您搜索 Quick fox jumps，您可能希望找到包含 A quick brown fox jumps over the lazy dog 的文档，您可能还想要包含相关
复制链接

扫一扫

专栏目录

EulerBlind CSDN认证博客专家 CSDN认证企业博客

码龄10年

62: 原创

9万+: 周排名

2万+: 总排名

6万+: 访问

: 等级

1125: 积分

398: 粉丝

425: 获赞

18: 评论

513: 收藏

私信

关注

热门文章

分类专栏

运维 17篇
操作系统 5篇
语言 13篇
Elasticsearch 9篇
业务 2篇
工具 19篇
机器学习 6篇
协议 3篇
大模型 1篇
算法 2篇
架构 1篇
常用工具 1篇
性能分析 1篇
工具使用 1篇
数据库 4篇
MySQL 4篇
环境处理 1篇

最新评论

【VS Code】配置代码快捷提示
卍暴力出奇迹卍: 那里输入该配置的名称是什么呀
【运维】Ubuntu换硬盘扩容
ha_lydms: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享
【运维】Ubuntu 配置DNS服务器
CSDN-Ada助手: 推荐云原生入门技能树：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
【机器学习】Ubuntu系统下CUDA驱动卸载及重装
白话机器学习: 优质好文，博主的文章细节到位，内容干货很多，感谢博主的分享，期待博主持续带来更多好文！
【机器学习】Ubuntu系统下CUDA驱动卸载及重装
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。