[pytorch]-torchvision.transforms.Compose()介绍及相关代码实例理解数据变换

本文链接：https://blog.csdn.net/ai_faker/article/details/115320418

torchvision.transforms.Compose是PyTorch中用于组合多个图像变换的工具，它允许开发者串联一系列如裁剪、旋转、归一化等操作。通过Compose，可以创建复杂的预处理流水线，简化代码并提高效率。例如，先打开图片并转换为RGB，再进行尺寸调整、随机旋转、中心裁剪、值范围标准化等步骤，最后得到可用于模型训练的张量。该类的__call__方法遍历所有变换并依次应用到图像上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

torchvision是pytorch的一个图形库，它服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision.transforms主要是用于常见的一些图形变换。以下是torchvision的构成：

1.torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
2.torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
3.torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
4.torchvision.utils: 其他的一些有用的方法。

本文的主题是其中的torchvision.transforms.Compose()类。这个类的主要作用是串联多个图片变换的操作。这个类的构造很简单：

class torchvision.transforms.Compose(transforms):
 # Composes several transforms together.
 # Parameters: transforms (list of Transform objects) – list of transforms to compose.
 
Example # 可以看出Compose里面的参数实际上就是个列表，而这个列表里面的元素就是你想要执行的transform操作。
>>> transforms.Compose([
>>>     transforms.CenterCrop(10),
>>>     transforms.ToTensor(),])

事实上，Compose()类会将transforms列表里面的transform操作进行遍历。实现的代码很简单：

## 这里对源码进行了部分截取。
def __call__(self, img):
	for t in self.transforms:	
		img = t(img)
    return img

例子

from torchvision import transforms
from PIL import Image
# 常用的数据变换器
resize = 224
tf = transforms.Compose([  
					      lambda x:Image.open(x).convert('RGB'),          	# 1.string path= > image data 并转换为RGB图像
					                                                        
					      transforms.Resize(                              	# 2.对图像进行缩放操作
					        (int(resize * 1.25), int(resize * 1.25))), 
					      transforms.RandomRotation(15), 					# 3.进行随机旋转
					      transforms.CenterCrop(resize),             		# 4.进行中心裁剪防止旋转后边界出现黑框部分
					      transforms.ToTensor(),							# 5.0-255RGB值映射至0-1
					      transforms.Normalize(mean=[0.485, 0.456, 0.406], 	# 归一化至[-1,1] mean std 来自imagenet 计算
					                           std=[0.229, 0.224, 0.225])
       							 ])
img_path = './train/empty/spot1.jpg'
print(type(img_path))
a = Image.open(img_path)
print(type(a))
img = tf(img_path)
print(type(img))

输出

<class 'str'>
<class 'PIL.JpegImagePlugin.JpegImageFile'>
<class 'torch.Tensor'>

完成了变换且可以用于训练