[面试题][统计学]等概率采集样本点

最新推荐文章于 2024-05-24 09:28:09 发布

chfe910

最新推荐文章于 2024-05-24 09:28:09 发布

阅读量1k

点赞数 1

分类专栏：机器学习与大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chfe007/article/details/80010281

版权

机器学习与大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

有一个非常非常大的数据集，有正样本，有负样本，仅知道数据集的size，不知道数据的分布，设计算法从中采样出40000个正样本、60000个负样本，使得样本是等概率被采集到的。

思路：这可以理解为一个海量数据的问题，可以采用堆排序的方式来处理，而利用hash值来排序则可以获得随机性要求。

解法：维护一个大小为40000的小根堆（或者大根堆）、一个大小为60000的小根堆（或者大根堆）。遍历一遍数据集，计算每一个样本id的hash值，如果该样本是正样本：如果hash值大于根节点或者堆中元素不足40000，则插入堆中并调整堆为小根堆（或者大根堆），否则舍弃该元素；如果是负样本则作相应的操作。这一过程还可以使用分布式处理来提高时间性能。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[面试题][统计学]等概率采集样本点

有一个非常非常大的数据集，有正样本，有负样本，仅知道数据集的size，不知道数据的分布，设计算法从中采样出40000个正样本、60000个负样本，使得样本是等概率被采集到的。思路：这可以理解为一个海量数据的问题，可以采用堆排序的方式来处理，而利用hash值来排序则可以获得随机性要求。解法：维护一个大小为40000的小根堆（或者大根堆）、一个大小为60000的小根堆（或者大根堆）。遍...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。