计算机视觉技术-使用图像增广进行训练

最新推荐文章于 2024-07-31 08:44:03 发布

白云如幻

最新推荐文章于 2024-07-31 08:44:03 发布

阅读量428

点赞数 9

分类专栏：人工智能深度学习代码笔记文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_43227851/article/details/135202250

版权

人工智能同时被 3 个专栏收录

216 篇文章 14 订阅

订阅专栏

代码笔记

137 篇文章 1 订阅

订阅专栏

深度学习

47 篇文章 0 订阅

订阅专栏

让我们使用图像增广来训练模型。这里，我们使用CIFAR-10数据集，而不是我们之前使用的Fashion-MNIST数据集。这是因为Fashion-MNIST数据集中对象的位置和大小已被规范化，而CIFAR-10数据集中对象的颜色和大小差异更明显。 CIFAR-10数据集中的前32个训练图像如下所示。

d2l.show_images(gluon.data.vision.CIFAR10(
    train=True)[0:32][0], 4, 8, scale=0.8);

Downloading /opt/mxnet/datasets/cifar10/cifar-10-binary.tar.gz from https://apache-mxnet.s3-accelerate.dualstack.amazonaws.com/gluon/dataset/cifar10/cifar-10-binary.tar.gz...

为了在预测过程中得到确切的结果，我们通常对训练样本只进行图像增广，且在预测过程中不使用随机操作的图像增广。在这里，我们只使用最简单的随机左右翻转。此外，我们使用ToTensor实例将一批图像转换为深度学习框架所要求的格式，即形状为（批量大小，通道数，高度，宽度）的32位浮点数，取值范围为0～1。

train_augs = gluon.data.vision.transforms.Compose([
    gluon.data.vision.transforms.RandomFlipLeftRight(),
    gluon.data.vision.transforms.ToTensor()])

test_augs = gluon.data.vision.transforms.Compose([
    gluon.data.vision.transforms.ToTensor()])

接下来，我们定义了一个辅助函数，以便于读取图像和应用图像增广。Gluon数据集提供的transform_first函数将图像增广应用于每个训练样本的第一个元素（由图像和标签组成），即应用在图像上。

def load_cifar10(is_train, augs, batch_size):
    return gluon.data.DataLoader(
        gluon.data.vision.CIFAR10(train=is_train).transform_first(augs),
        batch_size=batch_size, shuffle=is_train,
        num_workers=d2l.get_dataloader_workers())