假设
- 猫:1000张图片
- 狗:300张图片
- 鸟:200张图片
总样本数:1500张图片
一、均匀采样:
1. 原理
在均匀采样中,每次从整个数据集中随机抽取样本,每个样本被选中的概率相同。抽取的样本数量不考虑每个类别的分布,只是简单地从总数据集中随机选择。
2. 具体步骤
- 计算整个数据集的总样本数:1500张图片。
- 每次随机从1500张图片中抽取30张样本用于训练。
3. 可能结果
由于每个样本被选中的概率相同(1/1500),抽取的样本数量会根据数据集中各类别的比例来分布。因此,结果可能如下:
- 猫:约1000/1500 ≈ 66.7%
- 狗:约300/1500 ≈ 20%
- 鸟:约200/1500 ≈ 13.3%
如果从总数据集中抽取30张样本,可能得到:
- 猫:20张(66.7% × 30)
- 狗:6张(20% × 30)
- 鸟:4张(13.3% × 30)
实际抽取时可能会有些偏差,但大致会反映数据集中各类别的比例。
二、按数据集采样1:1:1
1. 原理
在按数据集采样1:1:1中,从每个类别中抽取相同数量的样本。这样可以确保每个批次中的各类别样本数量相同。
2. 具体步骤
- 将数据集分成三个子集:
- 猫的子集:1000张图片
- 狗的子集:300张图片
- 鸟的子集:200张图片
- 从每个子集中各随机抽取10张样本(因为需要抽取30张样本,且每类均匀分布,故每类各10张)。
3. 可能结果
由于按1:1:1比例进行采样,每个类别的样本数量相同,抽取的样本数量会严格遵循这个比例。因此,结果是:
- 猫:10张
- 狗:10张
- 鸟:10张
三、比较与总结
-
均匀采样:
- 抽样方法:从总数据集中随机抽取样本。
- 样本比例:反映数据集中各类别的原始比例。
- 结果波动:每次抽样结果可能不同,但整体上会趋向于数据集原始比例。
-
按数据集采样1:1:1:
- 抽样方法:从每个类别的子集中各抽取相同数量的样本。
- 样本比例:每个批次中的各类别样本数量相同。
- 结果稳定:每次抽样结果较为稳定,确保每类样本数量一致。
四、实际应用场景
- 均匀采样:适用于数据集分布相对均匀,或者模型对类别不平衡不敏感的场景。
- 按数据集采样1:1:1:适用于类别不平衡的情况,确保模型能看到每类样本的均衡数量,避免模型偏向于多数类样本。