ES聚合原理：（来源自官方文档）

最新推荐文章于 2024-07-29 10:53:26 发布

_小骑士

最新推荐文章于 2024-07-29 10:53:26 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/qq_24265945/article/details/81015630

版权

聚合原理：（来源自官方文档）

https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html#field-data-filtering

大多数字段默认为索引，这使得它们可以搜索。但是，排序，聚合和访问脚本中的字段值需要与搜索不同的访问模式。

搜索需要回答“哪些文档包含此术语？”的问题，而排序和聚合需要回答一个不同的问题：“本文对这个文档有什么价值？”。

大多数字段可以使用索引时间，磁盘上doc_values这种数据访问模式，但文本字段不支持doc_values。

相反，文本字段使用名为fielddata的查询时内存数据结构。这种数据结构是在第一次将字段用于聚合，排序或脚本时构建的。它是通过从磁盘读取每个段的整个倒排索引而构建的，反转术语↔︎文档关系，并将结果存储在内存中的JVM堆中。

Fielddata可以消耗大量堆空间，特别是在加载高基数文本字段时。一旦fielddata被加载到堆中，它将在该段的整个生命周期内保持在那里。此外，加载fielddata是一个昂贵的过程，可能会导致用户体验延迟命中。这就是为什么fielddata默认是禁用的。

如果您尝试对文本字段上的脚本进行排序，聚合或访问值，则会看到以下异常：

Fielddata is disabled on text fields by default. Set fielddata=true on [your_field_name] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory.

// Fielddata在默认情况下在文本字段中被禁用。在[your_field_name]上设置fielddata = true，以便通过取消倒置索引来加载内存中的fielddata。请注意，这可以使用大量的内存。

Fielddata过滤可用于减少加载到内存中的术语数量，从而减少内存使用量。术语可以按频率过滤：

频率过滤器允许您只加载文档频率落在最小值和最大值之间的项，可以用绝对值（数值大于1.0）或百分比表示（例如，0.01为1％，1.0为100％）。频率按每个段计算。百分比基于具有该字段价值的文档数量，而不是该分段中的所有文档。

小段可以通过指定段包含min_segment_size的文档的最小数量来完全排除

_小骑士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫