按各类样本占比抽样定量图片的问题

今天处理图片数据的时候,碰到了一个问题:假设有A, B, C, ......一共K个类别的数据,每一类分别有N_{A}, N_{B}, N_{C}...张图片,总计N张,要从中随机抽取T张作为测试样本(不重复抽取),该怎么抽样呢?


方案一:除最后一类之外,各类抽取\left \lfloor \frac{N_{i}*T}{N} \right \rfloor张图片;最后一类抽取N-\sum_{i=1}^{K-1}\left \lfloor \frac{N_{i}*T}{N} \right \rfloor的图片。

方案一在该例中可能会报错:N_{A}=N_{B}=2,N_{C}=1;T=4

若C为最后一类,则A,B两类分别抽取了1张图,则C需要抽取2张,超过了C类的图片数。

方案二:把方案一中的向下取整改为向上取整。

方案二在该例中可能会报错:N_{A}=N_{B}=3,N_{C}=1;T=3

若C为最后一类,则A,B两类分别抽取了2张图,则C需要抽取-1张,这没法儿操作啊。。

方案三:设已经抽取了前m类,剩余的抽取空间为R_{m+1} = N-\sum_{i=1}^{m}N_{i},剩余的抽取量为T_{m+1} = N-\sum_{i=1}^{m}N_{i},第m+1类抽取\left \lfloor \frac{T_{m+1}*N_{m+1}}{R_{m+1}} \right \rfloor,然后更新R_{m+1}, T_{m+1}即可。通俗地说,就是从剩余的抽取量中按比例抽取。

这个方案代码实现起来也比较方便,此处不做展开。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值