在模型训练中,均匀采样和按数据集采样两者的区别。

假设

  • 猫:1000张图片
  • 狗:300张图片
  • 鸟:200张图片

总样本数:1500张图片

一、均匀采样:

1. 原理

在均匀采样中,每次从整个数据集中随机抽取样本,每个样本被选中的概率相同。抽取的样本数量不考虑每个类别的分布,只是简单地从总数据集中随机选择。

2. 具体步骤
  • 计算整个数据集的总样本数:1500张图片。
  • 每次随机从1500张图片中抽取30张样本用于训练。
3. 可能结果

由于每个样本被选中的概率相同(1/1500),抽取的样本数量会根据数据集中各类别的比例来分布。因此,结果可能如下:

  • 猫:约1000/1500 ≈ 66.7%
  • 狗:约300/1500 ≈ 20%
  • 鸟:约200/1500 ≈ 13.3%

如果从总数据集中抽取30张样本,可能得到:

  • 猫:20张(66.7% × 30)
  • 狗:6张(20% × 30)
  • 鸟:4张(13.3% × 30)

实际抽取时可能会有些偏差,但大致会反映数据集中各类别的比例。

二、按数据集采样1:1:1

1. 原理

在按数据集采样1:1:1中,从每个类别中抽取相同数量的样本。这样可以确保每个批次中的各类别样本数量相同。

2. 具体步骤
  • 将数据集分成三个子集:
    • 猫的子集:1000张图片
    • 狗的子集:300张图片
    • 鸟的子集:200张图片
  • 从每个子集中各随机抽取10张样本(因为需要抽取30张样本,且每类均匀分布,故每类各10张)。
3. 可能结果

由于按1:1:1比例进行采样,每个类别的样本数量相同,抽取的样本数量会严格遵循这个比例。因此,结果是:

  • 猫:10张
  • 狗:10张
  • 鸟:10张

三、比较与总结

  1. 均匀采样

    • 抽样方法:从总数据集中随机抽取样本。
    • 样本比例:反映数据集中各类别的原始比例。
    • 结果波动:每次抽样结果可能不同,但整体上会趋向于数据集原始比例。
  2. 按数据集采样1:1:1

    • 抽样方法:从每个类别的子集中各抽取相同数量的样本。
    • 样本比例:每个批次中的各类别样本数量相同。
    • 结果稳定:每次抽样结果较为稳定,确保每类样本数量一致。

四、实际应用场景

  • 均匀采样:适用于数据集分布相对均匀,或者模型对类别不平衡不敏感的场景。
  • 按数据集采样1:1:1:适用于类别不平衡的情况,确保模型能看到每类样本的均衡数量,避免模型偏向于多数类样本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代替人格

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值