关于样本采样的一些想法和代码

最新推荐文章于 2024-08-19 22:58:58 发布

宇弦酒仙

最新推荐文章于 2024-08-19 22:58:58 发布

阅读量334

点赞数

分类专栏：辅助工具文章标签： python 深度学习

本文链接：https://blog.csdn.net/m0_37929824/article/details/104792271

版权

辅助工具专栏收录该内容

11 篇文章 0 订阅

订阅专栏

为了验证小样本的思想，先从数据量的更改出发，调整数据集的大小，验证数据量改变对性能改变到底有怎样的影响，这篇博客记录下调整数据量的方法。

PyTorch中单独提供了一个sampler模块，用来对数据进行采样。RandomSampler，当dataloader的shuffle参数为True时，系统会自动调用这个采样器，实现打乱数据。默认的是采用SequentialSampler，它会按顺序一个一个进行采样。
WeightedRandomSampler，它会根据每个样本的权重选取数据，在样本比例不均衡的问题中，可用它来进行重采样。

WeightedRandomSampler需提供两个参数：每个样本的权重weights、样本总数num_samples，以及一个可选参数replacement。权重越大的样本被选中的概率越大，待选取的样本数目一般小于全部的样本数目。replacement用于指定是否可以重复选取某一个样本，默认为True，即允许在一个epoch中重复采样某一个数据。如果设为False，则当某一类的样本被全部选取完，但其样本数目仍未达到num_samples时，sampler将不会再从该类中选择数据，此时可能导致weights参数失效。下面举例说明。


```python
dataset = DogCat('data/dogcat/', transforms=transform)
# 狗的图片被取出的概率是猫的概率的两倍
# 两类图片被取出的概率与weights的绝对大小无关，只和比值有关
weights = [2 if label == 1 else 1 for data, label in dataset]
weights
from torch.utils.data.sampler import  WeightedRandomSampler
sampler = WeightedRandomSampler(weights,\
                                num_samples=9,\
                                replacement=True)
dataloader = DataLoader(dataset,
                        batch_size=3,
                        sampler=sampler)
for datas, labels in dataloader:
    print(labels.tolist())
sampler = WeightedRandomSampler(weights, 8, replacement=False)
dataloader = DataLoader(dataset, batch_size=4, sampler=sampler)
for datas, labels in dataloader:
    print(labels.tolist())