pytorch中transforms.Compose()函数

最新推荐文章于 2024-07-22 19:31:55 发布

b_dxac

最新推荐文章于 2024-07-22 19:31:55 发布

阅读量6.2k

点赞数 20

分类专栏：深度学习文章标签： python 计算机视觉 pytorch

原文链接：https://blog.csdn.net/wangkaidehao/article/details/104520022；https://blog.csdn.net/weixin_43135178/article/details/115133115

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

转载自：https://blog.csdn.net/wangkaidehao/article/details/104520022

转载自：https://blog.csdn.net/u013925378/article/details/103363232

torchvision是pytorch的一个图形库，它服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision.transforms主要是用于常见的一些图形变换。以下是torchvision的构成：

torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
torchvision.utils: 其他的一些有用的方法。

本文重点介绍torchvision.transforms.Compose()类。这个类的主要作用是串联多个图片变换的操作。这个类的构造很简单：

class torchvision.transforms.Compose(transforms):
 # Composes several transforms together.
 # Parameters: transforms (list of Transform objects) – list of transforms to compose.
 
Example # 可以看出Compose里面的参数实际上就是个列表，而这个列表里面的元素就是你想要执行的transform操作。
>>> transforms.Compose([
>>>     transforms.CenterCrop(10),
>>>     transforms.ToTensor(),])

事实上，Compose()类会将transforms列表里面的transform操作进行遍历。实现的代码很简单：

## 这里对源码进行了部分截取。
def __call__(self, img):
	for t in self.transforms:	
		img = t(img)
    return img

介绍transforms中的函数：

备注：Python图像库PIL(Python Image Library)是python的第三方图像处理库，但是由于其强大的功能与众多的使用人数，几乎已经被认为是python官方图像处理库了。

函数解析：

# torchvision 数据集的输出是范围在[0,1]之间的 PILImage，我们将他们转换成归一化范围为[-1,1]之间的
# 张量 Tensors。
transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

那transform.Normalize()是怎么工作的呢？以上面代码为例，

ToTensor() 能够把灰度范围从0-255变换到0-1之间，而后面的transform.Normalize()则把0-1变换到(-1,1).
具体地说，对每个通道而言，Normalize执行以下操作：
image=(image-mean)/std
其中mean和std分别通过(0.5,0.5,0.5)和(0.5,0.5,0.5)进行指定。原来的0-1最小值0则变成(0-0.5)/0.5=-1，而最大值1则变成(1-0.5)/0.5=1.
而transforms.Compose()负责将这两个对图像的操作串联起来。