一般随机抽样并不能保持统计特性

最新推荐文章于 2021-05-12 17:04:28 发布

Vigor

最新推荐文章于 2021-05-12 17:04:28 发布

阅读量669

点赞数

分类专栏：云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hewei0241/article/details/8257560

版权

云计算专栏收录该内容

13 篇文章 0 订阅

订阅专栏

举一个具有启发性的例子

如果根据一天内很多人的吃饭记录如：

张三早餐

李四中餐

张三晚餐

。。。

的数据，随机抽取10%进行统计

假设本来数据有s个人吃了1顿，d个人吃了2顿

那么吃两顿饭的人占全部人的比例应该是 d/(s +d)

s在抽样样本中有s/10，而d只有d/100是两条吃饭记录都选中，18d/100是只选中一个记录

所以样本结果变成了（d/100） / (d/100 +s/10+18d/100 )

也就是d / (10s+19d) 显然无论s,d取什么值都是和原来的数据的比例是不同的。

所以能找到一个保持统计特性的抽样方法在大量数据抽样挖掘中是非常有价值的

或者找到相关的抽样结果到原始数据的结果校正也是可以考虑的，不过在本例子中利用d / (10s+19d)求d/(s +d)是非常困难的

当然如果不怕麻烦可以抽出10%的用户的全部记录来进行统计来得到正确的答案，不过这样会很难受，必须要依靠哈希来判断用户记录是否被抽取

随着记录的增加，维持固定比例的用户的记录也是越来越困难的

所以常见的方法是将查询的关键字段作为主键然后按主键进行抽样来进行统计并得到结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。