Elasticsearch:Shingle过滤器

Shingle在中文中通常翻译为 “瓦片”。Shingle过滤器在Elasticsearch中是用于创建词汇的组合,类似于n-gram,但针对的是词汇而不是字符。它可以将文本中相邻的词组合在一起,形成更长的词组,这有助于在分析和搜索时捕获词语之间的上下文关系。

功能:

  • 生成Shingles(词组): Shingle过滤器在分词器的结果基础上,将连续的词语组合成指定长度的词组。
  • 可配置的大小: 你可以指定最小和最大的shingle大小(即词组包含的词的数量)。

例子:

假设我们有一句话:“I love ice cream”,并且我们应用了一个设置为min_shingle_size=2max_shingle_size=3的shingle过滤器。这将产生以下shingles:

  • I
  • I love
  • I love ice
  • love
  • love ice
  • love.ice cream
  • ice
  • ice cream
  • cream

这意味着,除了单独的词(如果分析器配置允许)外,还会生成包含2个和3个连续词的组合。这样,当进行搜索查询时,如果某人搜索“love ice”或者“love ice cream”,即使它们不是完整的独立词,这个shingle过滤器也能帮助文档匹配这些查询。这对于理解文本的上下文特别有用,特别是在处理短语搜索或需要理解词语序列的场景中。

通过这种方式,shingle过滤器增强了Elasticsearch的搜索能力,允许它不仅仅匹配单独的词,也匹配更长的词组,从而提供更丰富和上下文相关的搜索结果。

  • 16
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值