Elasticsearch 英文分词 & 中文分词

本文介绍了Elasticsearch的分词工作原理,包括字符过滤器、分词器和Token过滤器的角色。详细讨论了英文分词的五种模式,如standard、simple、whitespace、stop和keyword。同时,针对中文分词的挑战,推荐了analysis-icu和elasticsearch-analysis-ik插件作为增强解决方案。
摘要由CSDN通过智能技术生成

对于倒排索引来说,很重要的一件事情就是需要对文本进行分词,经过分词可以获取情感、词性、质性、词频等等的数据。

Elasticsearch 分词工作原理

在 Elasticsearch 中进行行分词的需要经过分析器的3个模块,字符过滤器将文本进行替换或者删除,在由分词器进行拆分成单词,最后由Token过滤器将一些无用语气助词删掉。
在这里插入图片描述

英文分词

在Elasticsearch 中共支持5种不同的分词模式,在不同的场景下发挥不同的效果。

standard (过滤标点符号)
GET /_analyze
{
   
  "analyzer": "standard",
  "text":
  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值