基数估计的一些笔记

基数估计用于估算大规模数据集中不重复元素的数量。在面对随机均匀分布的数据时,通过找到数据集中的最小值来初步估计基数,但这种方法存在准确性和存储空间的问题。SuperLogLog、HyperLogLog和Linear Probablistic等算法则致力于解决这些问题,提供更高效的空间换精度解决方案。
摘要由CSDN通过智能技术生成

基数估计什么场景下会用到?

假如你有一个巨大的含有重复数据项数据集,这个数据集过于庞大以至于无法全部放到内存中处理。现在你想知道这个数据集里有多少不同的元素,但是数据 集没有排好序,而且对如此大的一个数据集进行排序和计数几乎是不可行的。你要如何估计数据集中有多少不同的数据项?很多应用场景都涉及这个问题,例如设计 数据库的查询策略:一个良好的数据库查询策略不但和总的数据量有关,同时也依赖于数据中不同数据项的数量。

引入

假设你通过如下步骤生成了一个数据集:

1、随机生成n个服从均匀分布的数字

2、随便重复其中一些数字,重复的数字和重复次数都不确定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值