pytorch——Dataloader的使用

最新推荐文章于 2024-05-10 18:29:26 发布

放牛儿

最新推荐文章于 2024-05-10 18:29:26 发布

阅读量1.8k

点赞数 1

分类专栏： Python 机器学习文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/m0_51311105/article/details/122689348

版权

Python 同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

机器学习

23 篇文章 4 订阅

订阅专栏

Dataset相当于数据集，而Dataloader顾名思义是一个装载数据集的一个工具，从dataset中取数据。先进入官网进行学习：

创建一个数据集和一个dataloader：

import torchvision
from torch.utils.data import DataLoader

#准备一个测试集
test_data = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=4, shuffle=True, drop_last=False)

设置的batch_size是4，则会将四个一打包。进入CIFAR10，可以看到其中的__getitem__函数返回是img和target，则将img0到3一打包，target0到3一打包...

首先看加载的数据集的相关信息：

img, target = test_data[0]
print(img.shape)
print(target)

输出为：torch.Size([3, 32, 32])
3

接着看打包的数据信息：

for data in test_loader:
    imgs, targets = data
    print(imgs.shape)
    print(targets)

输出为： torch.Size([4, 3, 32, 32])
tensor([5, 2, 6, 8])

... ...

可以看到四个数据打包为一个imgs，并将四个target打包为了一个tensor类型数据。

接着，我们将打包改为64个一打包，并实现数据的可视化：

from torch.utils.tensorboard import SummaryWriter

test_loader = DataLoader(dataset=test_data, batch_size=64, shuffle=True, drop_last=False)

writer = SummaryWriter("logs")
step = 0
for data in test_loader:
    imgs, targets = data
    writer.add_images("test_data", imgs, step)
    step = step + 1

writer.close()

注意用的是add_images，用于将打包的图片进行显示。打开Tensorboard：

可以看到，每一步将64个数据进行打包，因为 drop_last参数设置为True，所以剩余的16个数据，没有舍去：

若改为False，则step为155，原156的图片被舍去。因为shuffle为True，则打包两次，两次的相同位置是不同的照片，如果为False，则两次打包的照片顺序一样。

放牛儿

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch——Dataloader的使用

Dataset相当于数据集，而Dataloader顾名思义是一个装载数据集的一个工具，从dataset中取数据。先进入官网进行学习：创建一个数据集和一个dataloader：import torchvisionfrom torch.utils.data import DataLoader#准备一个测试集test_data = torchvision.datasets.CIFAR10(root="./dataset", train=False, trans...
复制链接

扫一扫