How to deal with Imbalanced Datasets in PyTorch - Weighted Random Sampler Tutorial

最新推荐文章于 2023-09-25 10:30:54 发布

穹镜

最新推荐文章于 2023-09-25 10:30:54 发布

阅读量257

点赞数

分类专栏： pytorch 文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_42890793/article/details/118441579

版权

pytorch 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

处理imblance数据

在这里插入图片描述
数据集两类：金毛100：哈士奇1

Methods for dealing with imbalanced datasets:

Oversampling
即不同的数据增强
Class weighting
给少的数据集更大的权重

loss_fn=nn.CrossEntrophyLoss(weight=torch.tensor([1,50,12...]))

import torch
import torchvision.datasets as datasets
import os
from torch.utils.data import WeightedRandomSampler, DataLoader
import torchvision.transforms as transforms
import torch.nn as nn

# Methods for dealing with imbalanced datasets:
# 1. Oversampling
# 2. Class weighting

def get_loader(root_dir, batch_size):
    my_transforms = transforms.Compose(
        [
            transforms.Resize((224, 224)),
            transforms.ToTensor(),
        ]
    )

    dataset = datasets.ImageFolder(root=root_dir, transform=my_transforms)
    class_weights = []
    for root, subdir, files in os.walk(root_dir):
        if len(files) > 0:
            class_weights.append(1/len(files))

    sample_weights = [0] * len(dataset)

    for idx, (data, label) in enumerate(dataset):
        class_weight = class_weights[label]
        sample_weights[idx] = class_weight

    sampler = WeightedRandomSampler(sample_weights, num_samples=
                                    len(sample_weights), replacement=True)

    loader = DataLoader(dataset, batch_size=batch_size, sampler=sampler)
    return loader


def main():
    loader = get_loader(root_dir="dataset", batch_size=8)

    num_retrievers = 0
    num_elkhounds = 0
    for epoch in range(10):
        for data, labels in loader:
            num_retrievers += torch.sum(labels==0)
            num_elkhounds += torch.sum(labels==1)

    print(num_retrievers)
    print(num_elkhounds)

if __name__ == "__main__":
    main()

穹镜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
How to deal with Imbalanced Datasets in PyTorch - Weighted Random Sampler Tutorial

处理imblance数据数据集两类：金毛100：哈士奇1Methods for dealing with imbalanced datasets:Oversampling即不同的数据增强Class weighting给少的数据集更大的权重loss_fn=nn.CrossEntrophyLoss(weight=torch.tensor([1,50,12...]))import torchimport torchvision.datasets as datasetsimport o
复制链接

扫一扫

专栏目录