[pytorch]-torchvision.transforms.Compose()介绍及相关代码实例理解数据变换

torchvision.transforms.Compose是PyTorch中用于组合多个图像变换的工具,它允许开发者串联一系列如裁剪、旋转、归一化等操作。通过Compose,可以创建复杂的预处理流水线,简化代码并提高效率。例如,先打开图片并转换为RGB,再进行尺寸调整、随机旋转、中心裁剪、值范围标准化等步骤,最后得到可用于模型训练的张量。该类的__call__方法遍历所有变换并依次应用到图像上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

torchvision是pytorch的一个图形库,它服务于PyTorch深度学习框架的,主要用来构建计算机视觉模型。torchvision.transforms主要是用于常见的一些图形变换。以下是torchvision的构成:

  • 1.torchvision.datasets: 一些加载数据的函数及常用的数据集接口;
  • 2.torchvision.models: 包含常用的模型结构(含预训练模型),例如AlexNet、VGG、ResNet等;
  • 3.torchvision.transforms: 常用的图片变换,例如裁剪、旋转等;
  • 4.torchvision.utils: 其他的一些有用的方法。

本文的主题是其中的torchvision.transforms.Compose()类。这个类的主要作用是串联多个图片变换的操作。这个类的构造很简单:

class torchvision.transforms.Compose(transforms):
 # Composes several transforms together.
 # Parameters: transforms (list of Transform objects) – list of transforms to compose.
 
Example # 可以看出Compose里面的参数实际上就是个列表,而这个列表里面的元素就是你想要执行的transform操作。
>>> transforms.Compose([
>>>     transforms.CenterCrop(10),
>>>     transforms.ToTensor(),])

事实上,Compose()类会将transforms列表里面的transform操作进行遍历。实现的代码很简单:

## 这里对源码进行了部分截取。
def __call__(self, img):
	for t in self.transforms:	
		img = t(img)
    return img


例子

from torchvision import transforms
from PIL import Image
# 常用的数据变换器
resize = 224
tf = transforms.Compose([  
					      lambda x:Image.open(x).convert('RGB'),          	# 1.string path= > image data 并转换为RGB图像
					                                                        
					      transforms.Resize(                              	# 2.对图像进行缩放操作
					        (int(resize * 1.25), int(resize * 1.25))), 
					      transforms.RandomRotation(15), 					# 3.进行随机旋转
					      transforms.CenterCrop(resize),             		# 4.进行中心裁剪防止旋转后边界出现黑框部分
					      transforms.ToTensor(),							# 5.0-255RGB值映射至0-1
					      transforms.Normalize(mean=[0.485, 0.456, 0.406], 	# 归一化至[-1,1] mean std 来自imagenet 计算
					                           std=[0.229, 0.224, 0.225])
       							 ])
img_path = './train/empty/spot1.jpg'
print(type(img_path))
a = Image.open(img_path)
print(type(a))
img = tf(img_path)
print(type(img))

输出

<class 'str'>
<class 'PIL.JpegImagePlugin.JpegImageFile'>
<class 'torch.Tensor'>

完成了变换且可以用于训练

### 使用 `torchvision.transforms` 预处理原始图像和掩码图像 为了有效地使用 `torchvision.transforms` 对原始图像和掩码图像进行预处理,通常会采用一系列变换操作来标准化输入数据。对于图像分类、目标检测以及语义分割任务而言,这些预处理步骤至关重要。 #### 定义转换函数 定义一组适用于训练集的增强方法,包括但不限于随机裁剪、水平翻转等;而对于验证集,则仅应用必要的缩放与归一化: ```python from torchvision import transforms data_transforms = { 'train': transforms.Compose([ transforms.Resize((256, 256)), # 调整大小至固定尺寸 transforms.RandomHorizontalFlip(), # 随机水平翻转 transforms.ToTensor(), # 将PIL Image 或 numpy.ndarray 转换为tensor并归一化到[0,1] transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) # 图像均值方差归一化 ]), 'val': transforms.Compose([ transforms.Resize((256, 256)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) } ``` 上述代码片段展示了如何创建两个不同的转换管道——分别用于训练阶段(`'train'`) 和评估阶段 (`'val'`) 的图像预处理[^1]。 #### 应用于实际场景中的实例 当涉及到具体的应用案例时,比如使用 Mask R-CNN 来执行实例分割任务,除了常规图片外还需要考虑对应的二进制掩码(mask)文件。因此,在构建自定义的数据加载器 (dataset loader) 中应当同时对这两类数据实施相同的几何变换(如旋转、平移),而保持像素级别的对应关系不变。然而,由于标签图像是单通道灰度图而非RGB彩色图,所以在对其进行规范化之前不需要调用 `transforms.Normalize()` 函数[^2]。 ```python class CustomSegmentationDataset(Dataset): def __init__(self, image_dir, mask_dir, transform=None): self.image_paths = sorted(glob.glob(os.path.join(image_dir, "*.png"))) self.mask_paths = sorted(glob.glob(os.path.join(mask_dir, "*.png"))) self.transform = transform def __getitem__(self, idx): img_path = self.image_paths[idx] mask_path = self.mask_paths[idx] image = Image.open(img_path).convert("RGB") # 确保读取的是三通道彩图 mask = Image.open(mask_path) sample = {'image': image, 'mask': mask} if self.transform: sample["image"] = self.transform(sample["image"]) sample["mask"] = ToTensor()(sample["mask"]) # 掩码只需转化为张量形式即可 return sample def __len__(self): return len(self.image_paths) ``` 这段代码实现了针对特定目录下存储的一系列配对好的原图及其相应标注信息(即mask)所设计的一个简易版 PyTorch Dataset 类型。通过重写 `__getitem__` 方法使得每次迭代都能返回已经过适当前处理后的样本集合。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值