Elasticsearch 英文分词 & 中文分词

最新推荐文章于 2024-07-14 10:41:17 发布

叶康铭

最新推荐文章于 2024-07-14 10:41:17 发布

阅读量6.7k

点赞数 6

分类专栏： Elastic Stack 玩转系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38030719/article/details/109103707

版权

本文介绍了Elasticsearch的分词工作原理，包括字符过滤器、分词器和Token过滤器的角色。详细讨论了英文分词的五种模式，如standard、simple、whitespace、stop和keyword。同时，针对中文分词的挑战，推荐了analysis-icu和elasticsearch-analysis-ik插件作为增强解决方案。

摘要由CSDN通过智能技术生成

对于倒排索引来说，很重要的一件事情就是需要对文本进行分词，经过分词可以获取情感、词性、质性、词频等等的数据。

Elasticsearch 分词工作原理

在 Elasticsearch 中进行行分词的需要经过分析器的3个模块，字符过滤器将文本进行替换或者删除，在由分词器进行拆分成单词，最后由Token过滤器将一些无用语气助词删掉。
在这里插入图片描述

英文分词

在Elasticsearch 中共支持5种不同的分词模式，在不同的场景下发挥不同的效果。

standard (过滤标点符号)

GET /_analyze
{
   
  "analyzer": "standard",
  "text":

最低0.47元/天解锁文章

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Elasticsearch 英文分词 & 中文分词

对于倒排索引来说，很重要的一件事情就是需要对文本进行分词，经过分词可以获取情感、词性、质性、词频等等的数据。Elasticsearch 分词工作原理在 Elasticsearch 中进行行分词的需要经过分析器的3个模块，字符过滤器将文本进行替换或者删除，在由分词器进行拆分成单词，最后由Token过滤器将一些无用语气助词删掉。英文分词在Elasticsearch 中共支持5种不同的分词模式，在不同的场景下发挥不同的效果。standard (过滤标点符号)GET /_analyze{ ".
复制链接

扫一扫

专栏目录

叶康铭 CSDN认证博客专家 CSDN认证企业博客

码龄7年

72: 原创

7万+: 周排名

72万+: 总排名

16万+: 访问

: 等级

1213: 积分

64: 粉丝

197: 获赞

46: 评论

189: 收藏

私信

关注

热门文章

分类专栏

最新评论

Istio 服务重试 (TrafficeManagement - Retries)
陆地潜水鱼: 现在测试压根不会触发多条访问信息
Istio 流量劫持
ccccc123666: 你好，有网页跳转劫持技术吗
GitLab Admin Area
weixin_47219933: 所以我在自己部署的gitlab那里也没找到
Istio 目标规则 (Destination Rule)
笔墨登场说说: apiVersion: networking.istio.io/v1alpha3 kind: DestinationRule metadata: name: web-dr spec: host: web-service trafficPolicy: loadBalancer: simple: RANDOM subsets: - name: httpd labels: app: httpd - name: nginx labels: app: nginx trafficPolicy: loadBalancer: simple: LEAST_CONN
Istio 目标规则 (Destination Rule)
笔墨登场说说: DestinationRule 所属服务配置错误

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。