Shingle在中文中通常翻译为 “瓦片”。Shingle过滤器在Elasticsearch中是用于创建词汇的组合,类似于n-gram,但针对的是词汇而不是字符。它可以将文本中相邻的词组合在一起,形成更长的词组,这有助于在分析和搜索时捕获词语之间的上下文关系。
功能:
- 生成Shingles(词组): Shingle过滤器在分词器的结果基础上,将连续的词语组合成指定长度的词组。
- 可配置的大小: 你可以指定最小和最大的shingle大小(即词组包含的词的数量)。
例子:
假设我们有一句话:“I love ice cream”,并且我们应用了一个设置为min_shingle_size=2
和max_shingle_size=3
的shingle过滤器。这将产生以下shingles:
- I
- I love
- I love ice
- love
- love ice
- love.ice cream
- ice
- ice cream
- cream
这意味着,除了单独的词(如果分析器配置允许)外,还会生成包含2个和3个连续词的组合。这样,当进行搜索查询时,如果某人搜索“love ice”或者“love ice cream”,即使它们不是完整的独立词,这个shingle过滤器也能帮助文档匹配这些查询。这对于理解文本的上下文特别有用,特别是在处理短语搜索或需要理解词语序列的场景中。
通过这种方式,shingle过滤器增强了Elasticsearch的搜索能力,允许它不仅仅匹配单独的词,也匹配更长的词组,从而提供更丰富和上下文相关的搜索结果。