torchvision.transforms.Compose

彬彬侠

于 2025-01-15 10:07:42 发布

阅读量816

点赞数 15

分类专栏：深度学习文章标签： torchvision transforms Compose python ToTensor Resize 深度学习

本文链接：https://blog.csdn.net/u013172930/article/details/145154171

版权

深度学习专栏收录该内容

50 篇文章

订阅专栏

`torchvision.transforms.Compose` 详解

在深度学习中，数据预处理是训练模型的关键步骤，尤其是在处理图像数据时。torchvision.transforms.Compose 是一个非常重要的工具，它允许我们将多个图像转换操作（transformations）组合成一个顺序的转换管道。这样我们可以按顺序对图像进行多次处理，简化代码并提高灵活性。

1. 作用

torchvision.transforms.Compose 用于将多个图像处理操作组合成一个单一的操作对象。每个操作会依次应用到输入的图像上，最终返回处理后的图像。它是 torchvision.transforms 模块中的一个函数，通常与其他图像处理操作（如裁剪、缩放、归一化等）一起使用。

2. 常用的 `transforms` 操作

torchvision.transforms 提供了许多常见的图像转换操作，可以与 Compose 一起使用：

transforms.ToTensor()：将 PIL 图像或者 numpy.ndarray 转换为 PyTorch 张量，并且将像素值归一化到 [0, 1] 的范围。
transforms.Resize()：调整图像的大小。
transforms.CenterCrop()：从中心裁剪图像。
transforms.RandomHorizontalFlip()：以一定概率随机水平翻转图像。
transforms.Normalize()：对图像进行标准化，通常是对每个通道减去均值并除以标准差。
transforms.RandomRotation()：随机旋转图像。
transforms.ColorJitter()：随机调整图像的亮度、对比度、饱和度和色调。
transforms.RandomResizedCrop()：随机裁剪并调整大小。

3. 用法

Compose 接受一个操作列表，并按顺序将这些操作应用到图像上。例如：

import torchvision.transforms as transforms

transform = transforms.Compose([
    transforms.Resize((256, 256)),  # 将图像缩放到 256x256
    transforms.RandomHorizontalFlip(),  # 随机水平翻转图像
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 图像标准化
])

4. 实际示例：使用 `Compose` 处理图像

假设我们有一个图像，并希望对其进行一系列转换操作。我们可以按以下方式实现：

from PIL import Image
import torchvision.transforms as transforms

# 打开一张图片
img = Image.open('example.jpg')

# 定义转换操作
transform = transforms.Compose([
    transforms.Resize((256, 256)),  # 缩放图像
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
])

# 应用转换
img_transformed = transform(img)

print(img_transformed.shape)  # 输出张量的形状

在这个例子中：

我们首先使用 Resize 调整图像大小为 256x256。
然后用 RandomHorizontalFlip 随机翻转图像。
再通过 ToTensor 将图像转换为 PyTorch 张量。
最后，使用 Normalize 对图像进行标准化处理。

5. 应用场景

数据增强：可以使用 Compose 将多个数据增强操作组合在一起，这样每次训练时输入数据都会发生不同的变换，有助于提高模型的鲁棒性。
训练前处理：通常在训练模型之前，图像数据需要进行调整、缩放、归一化等操作。Compose 可以帮助我们简洁地组织这些操作。
测试集处理：对于测试数据，通常只需要固定的预处理操作（如缩放、归一化等），而不需要进行数据增强。

6. 注意事项

Compose 是将多个变换组合在一起，因此顺序很重要。比如，如果先进行 Normalize() 然后再进行 ToTensor()，那么 Normalize 会作用在数值范围为 [0, 255] 的像素值上，结果会不正确。
在应用到数据集时，可以直接将 transform 作为参数传递给 torchvision.datasets 中的相关数据加载类。例如，torchvision.datasets.ImageFolder 就可以通过 transform 参数进行批量处理。

7. 与 `torch.utils.data.DataLoader` 结合使用

通常在加载数据时，我们会将数据转换操作和 DataLoader 结合使用。例如：

from torch.utils.data import DataLoader
from torchvision import datasets

# 使用 Compose 对训练集进行预处理
train_transforms = transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 创建数据集
train_dataset = datasets.ImageFolder(root='path_to_train_data', transform=train_transforms)

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

# 迭代数据
for images, labels in train_loader:
    print(images.shape)  # 输出图像张量的形状
    break  # 打印一个batch的形状