ES 的聚合机制和模糊匹配

一、 Elasticsearch对于大数据量(上亿量级)的聚合如何实现?

Elasticsearch 提供的首个近似聚合是cardinality 度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。

hyperloglog是用来近似统计不重复数据次数(cardinality count)的一种算法。主要应用于在一定误差允许范围内,进行去重计数。比如,近似统计网站日活用户数(非计算精确指标,只是为了监控流量趋势,提供背压标准)。cardinality 度量是一个近似算法。 它是基于 HyperLogLog++ (HLL)算法的。 HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。

1.1 HLL优点

去重计数可以通过其他方案来实现,比如hashmap,b树,bitmap,但上述方法都有一个缺点,内存消耗会随数据规模线性增长,以bitmap为例,如果要统计1亿个数据的基数值,大约需要内存: 100000000/8/1024/1024 ≈ 12M
而redis中实现的HyperLogLog,只需要12K内存,在标准误差0.81%的前提下,能够统计2^64 个数据。

1.2 ES应用:

去重是一个很常见的操作,可以回答很多基本的业务问题:

  • 网站独立访客是多少?
  • 卖了多少种汽车?
  • 每月有多少独立用户购买了商品?

我们可以用 cardinality 度量确定经销商销售汽车颜色的数量:

GET /cars/transactions/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_colors" : {
            "cardinality" : {
              "field" : "color"
            }
        }
    }
}

返回的结果表明已经售卖了三种不同颜色的汽车:

...
"aggregations": {
  "distinct_colors": {
     "value": 3
  }
}

二、 模糊匹配

Elasticsearch 指定了 fuzziness 参数支持对最大编辑距离的配置,默认为 2 。在计算机科学中,编辑距离用于度量任意两个字符串间不相似的程度,即二者之间的编辑距离越大表示两个字符串之间的差异就越大。

编辑距离被称作Levenshtein distance,给定两个字符串x和y,只允许使用三种操作(插入一个字符、删除一个字符、修改一个字符)将x变换为y,求最少需要的操作次数。

fuzzy在es中可以理解为模糊查询,搜索本身很多时候是不精确的,很多时候我们需要在用户的查询词中有部分错误的情况下也能召回正确的结果

GET /my_index/_search
{
  "query": {
    "fuzzy": {
      "text": "surprize"
    }
  }
}

fuzzy 查询的工作原理是给定原始词项及构造一个 编辑自动机— 像表示所有原始字符串指定编辑距离的字符串的一个大图表。然后模糊查询使用这个自动机依次高效遍历词典中的所有词项以确定是否匹配。 一旦收集了词典中存在的所有匹配项,就可以计算匹配文档列表。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值