5-DataLoader源码讲解

取个名字真难呐

已于 2022-03-10 22:16:03 修改

阅读量189

点赞数

分类专栏： python pytorch 文章标签： pytorch

于 2022-03-08 19:44:44 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/123361354

版权

pytorch 同时被 2 个专栏收录

148 篇文章 25 订阅

订阅专栏

python

75 篇文章 2 订阅

订阅专栏

文章目录

1. class DataLoader
2. __init__函数
3. 互斥
4. shuffle
5. sampler

1. class DataLoader

这个类来自于文件dataloader.py
在这里插入图片描述

2. init函数

    def __init__(self, dataset: Dataset[T_co], batch_size: Optional[int] = 1,
                 shuffle: bool = False, sampler: Optional[Sampler] = None,
                 batch_sampler: Optional[Sampler[Sequence]] = None,
                 num_workers: int = 0, collate_fn: Optional[_collate_fn_t] = None,
                 pin_memory: bool = False, drop_last: bool = False,
                 timeout: float = 0, worker_init_fn: Optional[_worker_init_fn_t] = None,
                 multiprocessing_context=None, generator=None,
                 *, prefetch_factor: int = 2,
                 persistent_workers: bool = False):
        torch._C._log_api_usage_once("python.data_loader")

dataset:表示需要加载的每个样本dataset
batch_size:表示指定批量大小
shuffle:表示一个批量大小里面的datasets是否随机打乱
sample: 表示自定义从datasets中抽样dataset组成dataloader;比如想定义样本以一个有序(长度相近的组合在一起)的方式来组合成minibatch
batch_sampler:自定义一个批量的采样方式；如果设置了sampler或者batch_sampler那么就可以不用设置shuffle
num_workers:表示多线程的处理数据
collate_fn:用来对一个batch进行后处理的。

3. 互斥

表示当我们设置了sampler 后就不能设置shuffle，否则会报错

        if sampler is not None and shuffle:
            raise ValueError('sampler option is mutually exclusive with '
                             'shuffle')

表示当我们设置了batch_sampler的时候，就不能设置batch_size,shuffle,drop_last了，否者会报错

        if batch_sampler is not None:
            # auto_collation with custom batch_sampler
            if batch_size != 1 or shuffle or sampler is not None or drop_last:
                raise ValueError('batch_sampler option is mutually exclusive '
                                 'with batch_size, shuffle, sampler, and '
                                 'drop_last')

4. shuffle

当我们设置shuffle=True的时候，系统调用了随机采样RandomSampler来处理dataset,否则调用了SequentialSampler来处理dataset

        if sampler is None:  # give default samplers
            if self._dataset_kind == _DatasetKind.Iterable:
                # See NOTE [ Custom Samplers and IterableDataset ]
                sampler = _InfiniteConstantSampler()
            else:  # map-style
                if shuffle:
                    sampler = RandomSampler(dataset, generator=generator)
                else:
                    sampler = SequentialSampler(dataset)

5. sampler

此类定义来源于sampler.py;

作用：以某种顺序从datasets中取元素
RandomSampler 随机采样；在__iter__中我们发现就是使用了torch.randperm函数随机生成一个序列

class RandomSampler(Sampler[int]):
    r"""Samples elements randomly. If without replacement, then sample from a shuffled dataset.
    If with replacement, then user can specify :attr:`num_samples` to draw.

    Args:
        data_source (Dataset): dataset to sample from
        replacement (bool): samples are drawn on-demand with replacement if ``True``, default=``False``
        num_samples (int): number of samples to draw, default=`len(dataset)`. This argument
            is supposed to be specified only when `replacement` is ``True``.
        generator (Generator): Generator used in sampling.
    """
    data_source: Sized
    replacement: bool

    def __init__(self, data_source: Sized, replacement: bool = False,
                 num_samples: Optional[int] = None, generator=None) -> None:
        self.data_source = data_source
        self.replacement = replacement
        self._num_samples = num_samples
        self.generator = generator

        if not isinstance(self.replacement, bool):
            raise TypeError("replacement should be a boolean value, but got "
                            "replacement={}".format(self.replacement))

        if self._num_samples is not None and not replacement:
            raise ValueError("With replacement=False, num_samples should not be specified, "
                             "since a random permute will be performed.")

        if not isinstance(self.num_samples, int) or self.num_samples <= 0:
            raise ValueError("num_samples should be a positive integer "
                             "value, but got num_samples={}".format(self.num_samples))

    @property
    def num_samples(self) -> int:
        # dataset size might change at runtime
        if self._num_samples is None:
            return len(self.data_source)
        return self._num_samples

    def __iter__(self) -> Iterator[int]:
        n = len(self.data_source)
        if self.generator is None:
            seed = int(torch.empty((), dtype=torch.int64).random_().item())
            generator = torch.Generator()
            generator.manual_seed(seed)
        else:
            generator = self.generator

        if self.replacement:
            for _ in range(self.num_samples // 32):
                yield from torch.randint(high=n, size=(32,), dtype=torch.int64, generator=generator).tolist()
            yield from torch.randint(high=n, size=(self.num_samples % 32,), dtype=torch.int64, generator=generator).tolist()
        else:
            yield from torch.randperm(n, generator=generator).tolist()

    def __len__(self) -> int:
        return self.num_samples

SequentialSampler顺序采样，按顺序采样元素，总是按照相同的顺序。

class SequentialSampler(Sampler[int]):
    r"""Samples elements sequentially, always in the same order.

    Args:
        data_source (Dataset): dataset to sample from
    """
    data_source: Sized

    def __init__(self, data_source: Sized) -> None:
        self.data_source = data_source

    def __iter__(self) -> Iterator[int]:
        return iter(range(len(self.data_source)))

    def __len__(self) -> int:
        return len(self.data_source)