【Pytorch学习笔记】数据模块03——Transforms-系列APIs-CSDN博客

本文链接：https://blog.csdn.net/qq_50040241/article/details/148045975

Transforms

transform是广泛使用的图形变换库，包含20多种基础方法以及组合功能，通常使用Compose把这些方法组合起来使用。

Compose方法中各个变换方法是串联的，也就是说上个方法输出是下个方法的输入，这要求各个方法之间传输的数据对象要一致。

常用API

Resize(size, interpolation=, max_size=None, antialias=None）

Resize是PyTorch中transforms模块的一个重要变换方法，用于调整图像尺寸。以下是其主要参数和功能：

size: 输出图像的目标尺寸。可以是单个整数（较短边将缩放到这个尺寸）或元组（指定具体的高度和宽度）
interpolation: 插值方法，用于确定如何计算新图像像素值
max_size: 输出图像的最大允许尺寸
antialias: 是否使用抗锯齿处理

示例用法：

from torchvision import transforms

# 将图片短边调整为256像素
transform = transforms.Resize(256)

# 将图片调整为特定尺寸 224x224
transform = transforms.Resize((224, 224))

# 在数据加载器中使用
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor()
])

ToTensor

ToTensor是一个常用的转换方法，用于将PIL图像或NumPy数组转换为PyTorch张量。它的主要功能包括：

数据类型转换：将PIL图像或NumPy的ndarray转换为torch.FloatTensor
维度调整：将图像的维度从(H x W x C)调整为(C x H x W)
像素值缩放：将[0, 255]范围的像素值缩放到[0.0, 1.0]

ToTensor()不需要任何参数。以下是使用示例：

from torchvision import transforms
from PIL import Image

# 创建转换器
transform = transforms.ToTensor()

# 单独使用
image = Image.open('image.jpg')
tensor_image = transform(image)

# 在转换流程中使用
transform_pipeline = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                        std=[0.229, 0.224, 0.225])
])

在这个例子中，ToTensor被用作数据预处理流程的一部分，通常在将图像输入神经网络之前使用。它确保了数据格式符合PyTorch的要求，并进行了适当的数值归一化。

Normalize(mean,std,inplace=False)

Normalize是一个常用的数据标准化转换方法，用于对张量进行标准化处理。它主要用于将输入数据转换为具有指定均值和标准差的分布。以下是其主要参数：

mean: 每个通道的均值，可以是一个序列或数字
std: 每个通道的标准差，可以是一个序列或数字
inplace: 是否直接在输入张量上进行操作，默认为False

对于每个通道，标准化的计算公式为：

output = (input - mean) / std

示例用法：

from torchvision import transforms

# 创建标准化转换
normalize = transforms.Normalize(
    mean=[0.485, 0.456, 0.406],  # ImageNet数据集的通道均值
    std=[0.229, 0.224, 0.225]    # ImageNet数据集的通道标准差
)

# 在转换流程中使用
transform_pipeline = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                       std=[0.229, 0.224, 0.225])
])

需要注意的是：

Normalize要求输入是PyTorch张量，所以通常在ToTensor之后使用
对于RGB图像，需要为每个通道指定均值和标准差
标准化参数的选择通常基于训练数据集的统计特性，上例中使用的是ImageNet数据集的统计值

FiveCrop&TenCrop

FiveCrop和TenCrop是PyTorch中用于数据增强的转换方法，它们通过从输入图像中截取多个区域来创建多个图像视图。

FiveCrop(size, vertical_flip=False)

FiveCrop将图像裁剪成五个部分：四个角落和中心区域。参数说明：

size: 裁剪区域的大小，可以是单个整数或(height, width)元组
vertical_flip: 是否进行垂直翻转，默认为False

TenCrop(size, vertical_flip=False)

TenCrop在FiveCrop的基础上增加了水平翻转，总共生成十个裁剪区域。参数与FiveCrop相同。

使用示例：

from torchvision import transforms
from PIL import Image

# FiveCrop示例
five_crop = transforms.FiveCrop(size=(224, 224))
image = Image.open('image.jpg')
five_crops = five_crop(image)  # 返回5个PIL图像的元组

# TenCrop示例
ten_crop = transforms.TenCrop(size=(224, 224))
ten_crops = ten_crop(image)    # 返回10个PIL图像的元组

# 在数据处理流程中使用
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.TenCrop(224),
    transforms.Lambda(lambda crops: torch.stack([transforms.ToTensor()(crop) for crop in crops]))
])

这些方法通常用于测试阶段，可以通过多个视角来提高模型的预测准确性。在训练阶段使用时需要注意：

需要相应调整模型的前向传播逻辑以处理多个裁剪区域
会增加内存使用和计算时间
通常与其他数据增强方法结合使用可以获得更好的效果

Lambda

Lambda是一个灵活的转换方法，允许用户定义自定义的转换函数。它可以接受任何Python可调用对象（通常是lambda函数或常规函数）作为参数。

主要特点：

自定义转换：可以实现标准transforms中没有的转换操作
灵活性：可以与其他转换方法结合使用
函数式编程：支持lambda表达式和常规函数

示例用法：

from torchvision import transforms
import torch

# 简单的Lambda转换示例
transform = transforms.Lambda(lambda x: x * 2)

# 在转换流程中使用Lambda
transform_pipeline = transforms.Compose([
    transforms.ToTensor(),
    transforms.Lambda(lambda x: x.mean(dim=0)),  # 计算通道均值
])

# 使用常规函数的示例
def custom_transform(img):
    return img[:, ::2, ::2]  # 隔行隔列采样

transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Lambda(custom_transform)
])

使用Lambda的一些常见场景：

数据格式转换：在不同数据类型之间转换
自定义数学运算：执行特定的数学计算或变换
形状调整：修改张量的维度或大小
数据标准化：实现自定义的标准化方法

需要注意的是，Lambda转换应该保持输入输出格式的一致性，以确保能够在转换流程中正常工作。

下面解释Lambda与FiveCrop/TenCrop的关系：

transforms.Lambda(lambda crops: torch.stack([transforms.ToTensor()(crop) for crop in crops]))

这行代码可以分解为以下几个部分：

crops参数：是FiveCrop或TenCrop输出的多个PIL图像的元组，包含了不同位置的裁剪图像
列表推导式：[transforms.ToTensor()(crop) for crop in crops] 对每个裁剪后的图像应用ToTensor转换
torch.stack：将转换后的多个张量堆叠成一个批次张量

Lambda与FiveCrop/TenCrop的关系：

数据流转换：FiveCrop/TenCrop输出多个PIL图像，但模型需要张量格式
批处理桥接：Lambda在这里起到桥接作用，将多个裁剪图像统一处理成一个批次
格式统一：最终输出的是shape为(N, C, H, W)的张量，其中N是裁剪数量（5或10）

执行顺序：

FiveCrop/TenCrop生成多个裁剪图像
Lambda接收这些裁剪图像
对每个裁剪图像应用ToTensor转换
使用torch.stack将所有张量合并为一个批次

RandomChoice

RandomChoice是一个转换方法，它允许从给定的转换列表中随机选择一个转换来应用。这对于数据增强特别有用，因为它可以为每个输入图像随机应用不同的转换。

参数说明：

transforms：转换列表，包含多个可能的转换方法

示例用法：

from torchvision import transforms

# 创建多个可能的转换
transform_list = [
    transforms.RandomHorizontalFlip(),
    transforms.ColorJitter(brightness=0.5),
    transforms.RandomRotation(30),
    transforms.RandomGrayscale()
]

# 创建RandomChoice转换
random_transform = transforms.RandomChoice(transform_list)

# 在转换流程中使用
transform_pipeline = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomChoice(transform_list),
    transforms.ToTensor()
])

在这个例子中：

每次处理图像时，RandomChoice会从transform_list中随机选择一个转换应用
这种随机性有助于增加数据的多样性，提高模型的泛化能力
每个转换被选中的概率是相等的，除非特别指定概率分布

使用RandomChoice的优势：

增加多样性：通过随机应用不同的转换，可以生成更多样化的训练数据
防止过拟合：随机性有助于减少模型对特定数据增强方式的依赖
灵活性：可以根据需求组合不同的转换方法

RandomOrder

RandomOrder是一个转换方法，它会随机改变给定转换序列的应用顺序。这对于数据增强特别有用，因为不同的转换顺序可能产生不同的效果。

参数说明：

transforms：转换列表，包含需要随机排序的转换方法

示例用法：

from torchvision import transforms

# 创建多个转换方法
transform_list = [
    transforms.ColorJitter(brightness=0.5),
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(20)
]

# 使用RandomOrder随机排序这些转换
random_order_transforms = transforms.RandomOrder(transform_list)

# 在转换流程中使用
transform_pipeline = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomOrder(transform_list),
    transforms.ToTensor()
])

使用RandomOrder的优势：

增加随机性：通过随机改变转换顺序，可以产生更多样的数据增强效果
顺序敏感性：某些转换的效果可能依赖于应用顺序，RandomOrder可以探索不同顺序组合
提高鲁棒性：通过多样的转换顺序，帮助模型学习更稳健的特征

需要注意：所有转换都会被应用，只是应用的顺序是随机的。这与RandomChoice（随机选择一个转换）不同。

RandomApply

RandomApply是一个转换方法，它以一定的概率应用给定的转换序列。这意味着转换可能会被应用，也可能不会被应用，具体取决于设定的概率。

参数说明：

transforms：转换列表，包含需要随机应用的转换方法
p：应用转换的概率，默认值为0.5。取值范围为[0.0, 1.0]

示例用法：

from torchvision import transforms

# 创建要随机应用的转换列表
transform_list = [
    transforms.ColorJitter(brightness=0.4, contrast=0.4),
    transforms.RandomRotation(15)
]

# 以0.7的概率应用这些转换
random_apply = transforms.RandomApply(transform_list, p=0.7)

# 在转换流程中使用
transform_pipeline = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomApply(transform_list, p=0.7),
    transforms.ToTensor()
])

使用RandomApply的优势：