预处理之仿射变换

*Major*

已于 2022-10-24 22:11:08 修改

阅读量1.6k

点赞数 1

文章标签： 1024程序员节

于 2022-10-24 14:20:57 首次发布

本文链接：https://blog.csdn.net/qq_41375318/article/details/127491882

版权

$预处理之仿射变换$

补充：transform.invert 预处理逆操作

from PIL import Image
from torchvision import transforms
import torch
import numpy as np

def transform_invert(img_, transform_train):
    """
    将data 进行反transfrom操作
    :param img_: tensor
    :param transform_train: torchvision.transforms
    :return: PIL image
    """
    if 'Normalize' in str(transform_train):
        # 分析transforms里的Normalize
        norm_transform = list(filter(lambda x: isinstance(x, transforms.Normalize), transform_train.transforms))
        mean = torch.tensor(norm_transform[0].mean, dtype=img_.dtype, device=img_.device)
        std = torch.tensor(norm_transform[0].std, dtype=img_.dtype, device=img_.device)
        img_.mul_(std[:, None, None]).add_(mean[:, None, None])  # 广播三个维度 乘标准差 加均值

    img_ = img_.transpose(0, 2).transpose(0, 1)  # C*H*W --> H*W*C

    # 如果有ToTensor，那么之前数值就会被压缩至0-1之间。现在需要反变换回来，也就是乘255
    if 'ToTensor' in str(transform_train):
        img_ = np.array(img_) * 255

    # 先将np的元素转换为uint8数据类型，然后转换为PIL.Image类型
    if img_.shape[2] == 3:  # 若通道数为3 需要转为RGB类型
        img_ = Image.fromarray(img_.astype('uint8')).convert('RGB')
    elif img_.shape[2] == 1:  # 若通道数为1 需要压缩张量的维度至2D
        img_ = Image.fromarray(img_.astype('uint8').squeeze())
    else:
        raise Exception("Invalid img shape, expected 1 or 3 in axis 2, but got {}!".format(img_.shape[2]))

    return img_

if __name__ == '__main__':
    
    img = Image.open(r"./test.jpg").convert('RGB')
    img_transform = transforms.Compose([transforms.ToTensor()])
    img_tensor = img_transform(img)
    # img_tensor.unsqueeze_(dim=0)    # C*H*W to B*C*H*W
    print(img_tensor)
    print(img_tensor.shape)
    
    img = transform_invert(img_tensor, img_transform)  # input: shape=[c h w]
    img.show()

在这里插入图片描述

一放射变换：RandomAffine

功能:对图像进行仿射变换，仿射变换是二维的线性变换，由五种基本原子变换构成，分别是旋转、平移、缩放、错切和翻转

主要参数说明：

degrees:旋转角度设置
translate:平移区间设置，如(a, b), a设置宽(width) ，b设置高(height)
图像在宽维度平移的区间为-img_width * a < dx < img_width *a
scale:缩放比例(以面积为单位)(范围：0-1)
fill_color: 填充颜色设置
shear:错切角度设置，有水平错切和垂直错切
若为a,则仅在x轴错切，错切角度在(-a, a)之间
若为(a, b)，则a设置x轴角度，b设置y的角度
若为(a，b, c, d),则a, b设置x轴角度，c, d设置y轴角度
resample:重采样方式，有NEAREST BILINEAR、 BICUBIC

1.旋转

from PIL import Image
from torchvision import transforms
from utils import transform_invert


if __name__ == '__main__':
    # 1.读取图像
    img = Image.open(r"./cat.png").convert('RGB')
    # 2.确定预处理方式
    img_transform = transforms.Compose([## transforms.Resize((300,300)),  # 重置大小为300*300
                                        transforms.RandomAffine(degrees=60),  # 仿射变换
                                        transforms.ToTensor()  # 转Tensor型变量
                                        ])
    # 3.进行预处理
    img_tensor = img_transform(img)
    # 4.逆Transform变换
    img = transform_invert(img_tensor, img_transform)  # input: shape=[c h w]
    # 5.进行预处理效果展示
    img.show()

在这里插入图片描述

2.平移

from PIL import Image
from torchvision import transforms
from utils import transform_invert


if __name__ == '__main__':
    # 1.读取图像
    img = Image.open(r"./cat.png").convert('RGB')
    # 2.确定预处理方式
    img_transform = transforms.Compose([## transforms.Resize((300,300)),  # 重置大小为300*300
                                        transforms.RandomAffine(degrees=0,translate=(0.2,0.2),fillcolor=(0,0,255)),  # 仿射变换
                                        transforms.ToTensor()  # 转Tensor型变量
                                        ])
    # 3.进行预处理
    img_tensor = img_transform(img)
    # 4.逆Transform变换
    img = transform_invert(img_tensor, img_transform)  # input: shape=[c h w]
    # 5.进行预处理效果展示
    img.show()

translate=(0.2：宽的平移范围,0.2：高的平移范围)

在这里插入图片描述

3.缩放

from PIL import Image
from torchvision import transforms
from utils import transform_invert


if __name__ == '__main__':
    # 1.读取图像
    img = Image.open(r"./cat.png").convert('RGB')
    # 2.确定预处理方式
    img_transform = transforms.Compose([## transforms.Resize((300,300)),  # 重置大小为300*300
                                        transforms.RandomAffine(degrees=0,scale=(0.2,1),fillcolor=(0,0,255)),  # 仿射变换
                                        transforms.ToTensor()  # 转Tensor型变量
                                        ])
    # 3.进行预处理
    img_tensor = img_transform(img)
    # 4.逆Transform变换
    img = transform_invert(img_tensor, img_transform)  # input: shape=[c h w]
    # 5.进行预处理效果展示
    img.show()

在这里插入图片描述

4.错切

from PIL import Image
from torchvision import transforms
from utils import transform_invert


if __name__ == '__main__':
    # 1.读取图像
    img = Image.open(r"./cat.png").convert('RGB')
    # 2.确定预处理方式
    img_transform = transforms.Compose([## transforms.Resize((300,300)),  # 重置大小为300*300
                                        transforms.RandomAffine(degrees=0,shear=(0,0,0,55),fillcolor=(0,0,255)),  # 仿射变换
                                        transforms.ToTensor()  # 转Tensor型变量
                                        ])
    # 3.进行预处理
    img_tensor = img_transform(img)
    # 4.逆Transform变换
    img = transform_invert(img_tensor, img_transform)  # input: shape=[c h w]
    # 5.进行预处理效果展示
    img.show()