参考链接
[1] Count-Min Sketch: https://blog.csdn.net/pipisorry/article/details/64126199
[2] Cormode G, Muthukrishnan S. An improved data stream summary: the count-min sketch and its applications[J]. Journal of Algorithms, 2005, 55(1): 58-75.
一、Sketch算法用来做什么?
用于计数的算法,牺牲一定的准确性换来高效率,适合用在实时性要求比较高的场景。
二、Min-count sketch
Count-Min Sketch 由 Cormode 和 Muthukrishnan 等人于2005年提出,这是频率估计问题的基本解决办法之一。
基础思想:
- 创建一个长度为 x 的数组,用来计数。每个元素的计数值初始化为 0;
- 对于每一个新来的元素,哈希到 0 到 x 之间的一个数,作为数组的索引:比如哈希值为 i,数组对应的位置索引 i 的计数值加 1;
- 要查询某个元素出现的频率,返回这个元素哈希望后对应的数组的位置索引的计数值即可。
进阶:
若数据类型很多,数组长度有限,极有可能互相冲突,即不同的数据hash到数组的同一个位置上