简单认识KMV Sketch估算算法

KMV Sketch是一种用于估算大数据集中不重复元素数量的算法。通过案例解释,展示了如何利用有限的样本对大规模数据进行近似计数,从而逼近真实值。该算法简单且在数学上被证明为无偏估计。
摘要由CSDN通过智能技术生成

介绍

KMV SketchTheta Sketch算法的一种,简单来说,KMV Sketch是用来估算大数据中不重复元素的个数,例如某个网站的唯一身份访客数。本文简单翻译自datasketches文档,用以说明该算法是如何进行估算的。


案例1

如果你去参加音乐会,你排在队尾,如何估计你的前面还有多少个人?如下图,整个队伍的长度是已知的为1000Ft,你与前一个人的距离为2Ft,那么可以简单的估算,整个队伍共有1000Ft/2Ft=500人,此时你用于计算的样本包含的人数为1人。

图片描述

再次观察这个队伍,你发现人与人之间的距离并不是均匀的,你看到队尾的11个人一共占据了30Ft的长度,那么再次估算人数为1000Ft/30Ft*11=11/(30Ft/1000Ft)=366人,由于此次你用了11个人作为样本,估算值应该比之前更精确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值