PyTorch 学习笔记 transforms的二十二个方法（transforms用法非常详细）_pytorch transform(1)

最新推荐文章于 2024-05-21 17:33:46 发布

2401_84183545

最新推荐文章于 2024-05-21 17:33:46 发布

阅读量633

点赞数 24

分类专栏：程序员文章标签： pytorch 学习笔记

本文链接：https://blog.csdn.net/2401_84183545/article/details/138331681

版权

程序员专栏收录该内容

124 篇文章 0 订阅

订阅专栏

transforms.Compose([
     transforms.CenterCrop(10),
     transforms.ToTensor(), ])

常见的图像变换

官方文档只是将方法陈列，没有归纳总结，顺序很乱，这里总结一共有四大类，方便大家索引：

裁剪（Crop）—— 中心裁剪：transforms.CenterCrop 随机裁剪：transforms.RandomCrop 随机长宽比裁剪：transforms.RandomResizedCrop 上下左右中心裁剪：transforms.FiveCrop 上下左右中心裁剪后翻转，transforms.TenCrop
翻转和旋转（Flip and Rotation） ——依概率p水平翻转：transforms.RandomHorizontalFlip(p=0.5) 依概率p垂直翻转：transforms.RandomVerticalFlip(p=0.5) 随机旋转：transforms.RandomRotation
图像变换（resize） ——transforms.Resize 标准化：transforms.Normalize 转为tensor，并归一化至[0-1]：transforms.ToTensor 填充：transforms.Pad 修改亮度、对比度和饱和度：transforms.ColorJitter 转灰度图：transforms.Grayscale 线性变换：
transforms.LinearTransformation() 仿射变换：transforms.RandomAffine 依概率p转为灰度图：transforms.RandomGrayscale 将数据转换为PILImage：transforms.ToPILImage transforms.Lambda：Apply a user-defined lambda as a transform.
对transforms操作，使数据增强更灵活 transforms.RandomChoice(transforms)，从给定的一系列transforms中选一个进行操作 transforms.RandomApply(transforms, p=0.5)，给一个transform加上概率，依概率进行操作 transforms.RandomOrder，将transforms中的操作随机打乱

一、裁剪——Crop

1.随机裁剪：transforms.RandomCrop

torchvision.transforms.RandomCrop（size，padding = None，pad_if_needed = False，fill = 0，padding_mode ='constant' ）

size（sequence 或int） - 作物的所需输出大小。如果size是int而不是像（h，w）这样的序列，则进行正方形裁剪（大小，大小）
padding（int或sequence ，optional） - 图像每个边框上的可选填充。默认值为None，即无填充。如果提供长度为4的序列，则它用于分别填充左，上，右，下边界。如果提供长度为2的序列，则分别用于填充左/右，上/下边界
pad_if_needed（boolean） - 如果小于所需大小，它将填充图像以避免引发异常。由于在填充之后完成裁剪，因此填充似乎是在随机偏移处完成的。
fill - 恒定填充的像素填充值。默认值为0.如果长度为3的元组，则分别用于填充R，G，B通道。仅当padding_mode为常量时才使用此值.
padding_mode-填充类型。应该是：恒定，边缘，反射或对称。默认值是常量。
- 常量：具有常量值的焊盘，该值用填充指定
- edge：填充图像边缘的最后一个值
- 反射：具有图像反射的垫（不重复边缘上的最后一个值）,填充[1,2,3,4]在反射模式下两侧有2个元素将导致[3,2,1,2,3,4,3,2]
- 对称：具有图像反射的垫（重复边缘上的最后一个值）,填充[1,2,3,4]在对称模式下两侧有2个元素将导致[2,1,1,2,3,4,4,3]

2.中心裁剪：transforms.CenterCrop

torchvision.transforms.CenterCrop(size)

依据给定的size从中心裁剪参数： size- (sequence or int)，若为sequence,则为(h,w)，若为int，则(size,size)

3.随机长宽比裁剪 transforms.RandomResizedCrop

torchvision.transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(0.75, 1.3333333333333333), interpolation=2)

将给定的PIL图像裁剪为随机大小和宽高比。
将原始图像大小变成随机大小（默认值：是原始图像的0.08到1.0倍）和随机宽高比（默认值：3/4到4/3倍）。这种方法最终调整到适当的大小。这通常用于训练Inception网络。

size - 每条边的预期输出大小
scale - 裁剪的原始尺寸的大小范围
ratio - 裁剪的原始宽高比的宽高比范围
interpolation - 默认值：PIL.Image.BILINEAR

4.上下左右中心裁剪：transforms.FiveCrop

torchvision.transforms.FiveCrop(size)

将给定的PIL图像裁剪为四个角和中央裁剪。
此转换返回图像元组，并且数据集返回的输入和目标数量可能不匹配。

对图片进行上下左右以及中心裁剪，获得5张图片，返回一个4D-tensor 参数： size- (sequence or int)，若为sequence,则为(h,w)，若为int，则(size,size)

5.上下左右中心裁剪后翻转: transforms.TenCrop

torchvision.transforms.TenCrop(size, vertical_flip=False)

将给定的PIL图像裁剪为四个角，中央裁剪加上这些的翻转版本（默认使用水平翻转）。
此转换返回图像元组，并且数据集返回的输入和目标数量可能不匹配。

size（sequence 或int） -作物的所需输出大小。如果size是int而不是像（h，w）这样的序列，则进行正方形裁剪（大小，大小）。
vertical_flip（bool） - 使用垂直翻转而不是水平翻转

二、翻转和旋转——Flip and Rotation

6.依概率p水平翻转transforms.RandomHorizontalFlip

torchvision.transforms.RandomHorizontalFlip(p=0.5)

以给定的概率随机水平翻转给定的PIL图像。

p- 概率，默认值为0.5

7.依概率p垂直翻转transforms.RandomVerticalFlip

torchvision.transforms.RandomVerticalFlip(p=0.5)

以给定的概率随机垂直翻转给定的PIL图像。

p（浮点数） - 图像被翻转的概率。默认值为0.5

8.随机旋转：transforms.RandomRotation

torchvision.transforms.RandomRotation(degrees, resample=False, expand=False, center=None)

按角度旋转图像。

degrees（sequence 或float或int） -要选择的度数范围。如果degrees是一个数字而不是像（min，max）这样的序列，则度数范围将是（-degrees，+ degrees）。
resample（{PIL.Image.NEAREST ，PIL.Image.BILINEAR ，PIL.Image.BICUBIC} ，可选） - 可选的重采样过滤器。请参阅过滤器以获取更多信如果省略，或者图像具有模式“1”或“P”，则将其设置为PIL.Image.NEAREST。
expand（bool，optional） - 可选的扩展标志。如果为true，则展开输出以使其足够大以容纳整个旋转图像。如果为false或省略，则使输出图像与输入图像的大小相同。请注意，展开标志假定围绕中心旋转而不进行平移。
center（2-tuple ，optional） - 可选的旋转中心。原点是左上角。默认值是图像的中心。

三、图像变换

9.resize：transforms.Resize

torchvision.transforms.Resize(size, interpolation=2)

将输入PIL图像的大小调整为给定大小。

size（sequence 或int） -所需的输出大小。如果size是类似（h，w）的序列，则输出大小将与此匹配。如果size是int，则图像的较小边缘将与此数字匹配。即，如果高度>宽度，则图像将重新缩放为（尺寸*高度/宽度，尺寸）
interpolation（int，optional） - 所需的插值。默认是 PIL.Image.BILINEAR

10.标准化：transforms.Normalize

torchvision.transforms.Normalize(mean, std)

用平均值和标准偏差归一化张量图像。给定mean：(M1,…,Mn)和std：(S1,…,Sn)对于n通道，此变换将标准化输入的每个通道，torch.*Tensor即 input[channel] = (input[channel] - mean[channel]) / std[channel]

mean（sequence） - 每个通道的均值序列。
std（sequence） - 每个通道的标准偏差序列。

11.转为tensor：transforms.ToTensor

torchvision.transforms.ToTensor

功能：将PIL Image或者 ndarray 转换为tensor，并且归一化至[0-1] 注意事项：归一化至[0-1]是直接除以255，若自己的ndarray数据尺度有变化，则需要自行修改。

12.填充：transforms.Pad

torchvision.transforms.Pad(padding, fill=0, padding_mode='constant')

使用给定的“pad”值在所有面上填充给定的PIL图像。

padding（int或tuple） -每个边框上的填充。如果提供单个int，则用于填充所有边框。如果提供长度为2的元组，则分别为左/右和上/下的填充。如果提供长度为4的元组，则分别为左，上，右和下边框的填充。
fill（int或tuple） - 常量填充的像素填充值。默认值为0.如果长度为3的元组，则分别用于填充R，G，B通道。仅
padding_mode为常量时才使用此值
padding_mode（str）
- 填充类型。应该是：恒定，边缘，反射或对称。默认值是常量。
  - 常量：具有常量值的焊盘，该值用填充指定
  - edge：填充图像边缘的最后一个值
  - 反射：具有图像反射的焊盘，而不重复边缘上的最后一个值.例如，在反射模式下在两侧填充2个元素的填充[1,2,3,4]将导致[3,2,1,2,3,4,3,2]
  - 对称：具有图像反射的垫，重复边缘上的最后一个值.例如，在对称模式下填充两侧带有2个元素的[1,2,3,4]将导致[2,1,1,2,3,4,4,3]

13.修改亮度、对比度和饱和度：transforms.ColorJitter

torchvision.transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)

随机更改图像的亮度，对比度和饱和度。

亮度（浮点数或python的元组：浮点数（最小值，最大值）） - 抖动亮度多少。从[max（0,1-brightness），1 +brightness]或给定[min，max]均匀地选择brightness_factor。应该是非负数。
对比度（浮点数或python的元组：浮点数（最小值，最大值）） - 抖动对比度多少。contrast_factor从[max（0,1-contrast），1 + contrast]或给定[min，max]中均匀选择。应该是非负数。
饱和度（浮点数或python的元组数：float （min ，max ）） - 饱和度抖动多少。饱和度_因子从[max（0,1-saturation），1 + saturation]或给定[min，max]中均匀选择。应该是非负数。
色调（浮点数或python的元组：浮点数（最小值，最大值）） - 抖动色调多少。从[-hue，hue]或给定的[min，max]中均匀地选择hue_factor。应该有0 <= hue <= 0.5或-0.5 <= min <= max <= 0.5。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

)]
[外链图片转存中…(img-iygYmLEA-1714419527319)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

2401_84183545

关注

24
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
PyTorch 学习笔记 transforms的二十二个方法（transforms用法非常详细）_pytorch transform(1)

Sn)对于n通道，此变换将标准化输入的每个通道，torch.*Tensor即 input[channel] = (input[channel] - mean[channel]) / std[channel]功能：将PIL Image或者 ndarray 转换为tensor，并且归一化至[0-1] 注意事项：归一化至[0-1]是直接除以255，若自己的ndarray数据尺度有变化，则需要自行修改。将原始图像大小变成随机大小（默认值：是原始图像的0.08到1.0倍）和随机宽高比（默认值：3/4到4/3倍）。
复制链接

扫一扫