【坑】Sketch算法——Count-Min Sketch和Universal Sketch

参考链接

[1] Count-Min Sketch: https://blog.csdn.net/pipisorry/article/details/64126199
[2] Cormode G, Muthukrishnan S. An improved data stream summary: the count-min sketch and its applications[J]. Journal of Algorithms, 2005, 55(1): 58-75.

一、Sketch算法用来做什么?

用于计数的算法,牺牲一定的准确性换来高效率,适合用在实时性要求比较高的场景。

二、Min-count sketch

Count-Min Sketch 由 Cormode 和 Muthukrishnan 等人于2005年提出,这是频率估计问题的基本解决办法之一。

基础思想:

  1. 创建一个长度为 x 的数组,用来计数。每个元素的计数值初始化为 0;
  2. 对于每一个新来的元素,哈希到 0 到 x 之间的一个数,作为数组的索引:比如哈希值为 i,数组对应的位置索引 i 的计数值加 1;
  3. 要查询某个元素出现的频率,返回这个元素哈希望后对应的数组的位置索引的计数值即可。

进阶:

若数据类型很多,数组长度有限,极有可能互相冲突,即不同的数据hash到数组的同一个位置上,影响计数的精度;
为了提高精度,使用多个数组和多个哈希函数。数组A对应哈希函数A,数组B对应哈希函数B,新到一个元素则在所有数组对应索引的位置都加1。
要查询某个元素出现的次数,则返回这些数组里面对应索引位置最小的(因此,叫min-count)。

特点:

  • 计数只会估算偏大;
  • 需要固定大小的内存和计算时间,和需要统计的元素多少无关;
  • 对于低频的元素,估算值相对的错误可能会很大。

三、Universal Sketch

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值