PyTorch之torchvision.transforms详解[原理+代码实现]

最新推荐文章于 2024-06-27 05:18:50 发布

雷恩Layne

最新推荐文章于 2024-06-27 05:18:50 发布

阅读量2.3w

点赞数 65

分类专栏：机器学习&深度学习文章标签： pytorch

本文链接：https://blog.csdn.net/qq_37555071/article/details/107532319

版权

本文详细介绍了torchvision.transforms模块中常用的数据预处理和增强方法，包括Compose、Normalize、Resize、Scale、CenterCrop、RandomCrop、RandomResizedCrop、RandomHorizontalFlip、RandomVerticalFlip、RandomRotation、ToTensor和ToPILImage等，通过实例演示了如何使用这些变换类对图像数据进行处理和增强。

摘要由CSDN通过智能技术生成

文章目录

前言

我们知道，在计算机视觉中处理的数据集有很大一部分是图片类型的，如果获取的数据是格式或者大小不一的图片，则需要进行归一化和大小缩放等操作，这些是常用的数据预处理方法。如果参与模型训练中的图片数据非常有限，则需要通过对有限的图片数据进行各种变换，如缩小或者放大图片的大小、对图片进行水平或者垂直翻转等，这些都是数据增强的方法。庆幸的是，这些方法在torch.transforms中都能找到，在torch.transforms中有大量的数据变换类，有很大一部分可以用于实现数据预处理（Data Preprocessing）和数据增广（Data Argumentation）。

torchvision.transforms常用变换类

transforms.Compose

transforms.Compose类看作一种容器，它能够同时对多种数据变换进行组合。传入的参数是一个列表，列表中的元素就是对载入的数据进行的各种变换操作。

首先使用PIL加载原始图片

#Pyton Image Library  PIL 一个python图片库
from PIL import Image
from torchvision import transforms
import matplotlib.pyplot as plt
%matplotlib inline
img = Image.open("./imgs/dianwei.jpg")
print(img.size)
plt.imshow(img)

输出：
(1102, 735)
在这里插入图片描述

transformer = transforms.Compose([                                
    transforms.Resize(256),
    transforms.transforms.RandomResizedCrop((224), scale = (0.5,1.0)),
    transforms.RandomHorizontalFlip(),
])
test_a = transformer(img)
plt.imshow(test_a)

输出：
在这里插入图片描述

transforms.Normalize(mean, std)

这里使用的是标准正态分布变换，这种方法需要使用原始数据的均值（Mean）和标准差（Standard Deviation）来进行数据的标准化，在经过标准化变换之后，数据全部符合均值为0、标准差为1的标准正态分布。计算公式如下：

在这里插入图片描述
一般来说，mean和std是实现从原始数据计算出来的，对于计算机视觉，更常用的方法是从样本中抽样算出来的或者是事先从相似的样本预估一个标准差和均值。如下代码，对三通道的图片进行标准化：

# 标准化是把图片3个通道中的数据整理到规范区间 x = (x - mean(x))/stddev(x)
# [0.485, 0.456, 0.406]这一组平均值是从imagenet训练集中抽样算出来的
normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

transforms.Resize(size)

对载入的图片数据按照我们的需要进行缩放，传递给这个类的size可以是一个整型数据，也可以是一个类似于 (h ,w) 的序列。如果输入是个(h,w)的序列，h代表高度，w代表宽度，h和w都是int，则直接将输入图像resize到这个(h,w)尺寸，相当于force。如果使用的是一个整型数据，则将图像的短边resize到这个int数，长边则根据对应比例调整，图像的长宽比不变。

# 等比缩放
test1 = transforms.Resize(224)(img)
print(test1.size)
plt.imshow(test1)

输出：
(335, 224)
在这里插入图片描述

transforms.Scale(size)

对载入的图片数据我们的需要进

最低0.47元/天解锁文章

雷恩Layne

关注

65
点赞
踩
252

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录