torchvision.transforms的图像增强

该文详细介绍了torchvision.transforms模块在图像预处理中的应用,包括ToPILImage、RandomResizedCrop、RandomHorizontalFlip、RandomRotation、ColorJitter、RandomAffine、RandomPerspective等变换,用于增强数据集的多样性并准备输入神经网络。
摘要由CSDN通过智能技术生成
import torchvision.transforms as transforms

transform = transforms.Compose([
    transforms.ToPILImage(),
    transforms.RandomResizedCrop(512, scale=(0.8, 1.0)),  # 随机裁剪和缩放图像
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.RandomVerticalFlip(),  # 随机垂直翻转
    transforms.RandomRotation(45),  # 随机旋转
    transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1),  # 颜色抖动
    transforms.RandomAffine(degrees=0, translate=(0.1, 0.1), scale=(0.9, 1.1), shear=10),  # 随机仿射变换
    transforms.RandomPerspective(distortion_scale=0.5, p=0.5),  # 随机透视变换
    transforms.Resize([512, 512]),
    transforms.Grayscale(),
    transforms.ToTensor(),
    lambda x: torch.as_tensor(x, dtype=torch.float32)
])
  1. transforms.ToPILImage():将Tensor类型的图像转换为PIL Image类型的图像。这个操作没有使用额外的参数。

  2. transforms.RandomResizedCrop(512, scale=(0.8, 1.0)):随机裁剪和缩放图像。它将图像随机裁剪为指定的大小(这里是512x512),并且可以根据给定的比例范围进行缩放。scale=(0.8, 1.0)表示将图像在0.8倍到1.0倍之间进行缩放。

  3. transforms.RandomHorizontalFlip():随机水平翻转图像。以0.5的概率随机选择是否对图像进行水平翻转。

  4. transforms.RandomVerticalFlip():随机垂直翻转图像。以0.5的概率随机选择是否对图像进行垂直翻转。

  5. transforms.RandomRotation(45):随机旋转图像。将图像以随机角度旋转,这里的参数45表示随机旋转的角度范围为-45度到+45度。

  6. transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1):颜色抖动。该操作通过随机调整图像的亮度、对比度、饱和度和色调来增加图像的变化。参数的含义如下:

    • brightness:亮度调整的范围。0表示无变化,1表示可以增加1倍的亮度,-1表示可以减少1倍的亮度。
    • contrast:对比度调整的范围。0表示无变化,1表示可以增加1倍的对比度,-1表示可以减少1倍的对比度。
    • saturation:饱和度调整的范围。0表示无变化,1表示可以增加1倍的饱和度,-1表示可以减少1倍的饱和度。
    • hue:色调调整的范围。0表示无变化,0.1表示可以在色相空间上随机调整0.1的偏移量。
  7. transforms.RandomAffine(degrees=0, translate=(0.1, 0.1), scale=(0.9, 1.1), shear=10):随机仿射变换。该操作可以进行随机旋转、平移、缩放和剪切图像。参数的含义如下:

    • degrees:随机旋转的角度范围,默认为0,表示不进行随机旋转。
    • translate:平移图像的范围。它接受一个元组,表示在水平和垂直方向上的最大平移比例。例如,(0.1, 0.1)表示图像可以在水平和垂直方向上最多平移10%的宽度和高度。
    • scale:缩放图像的范围。它接受一个元组,表示在水平和垂直方向上的缩放范围。例如,(0.9, 1.1)表示图像可以在水平和垂直方向上缩放为90%到110%之间的大小。
    • shear:剪切图像的角度范围。它表示图像可以以一定的角度进行剪切。例如,shear=10表示图像可以在水平和垂直方向上最多剪切10度。
    • transforms.RandomPerspective(distortion_scale=0.5, p=0.5):随机透视变换。该操作以一定的概率对图像进行透视变换。参数的含义如下:
      • distortion_scale:透视变换的程度。较高的值将产生更大的透视效果。
      • p:透视变换被应用的概率。例如,p=0.5表示以50%的概率应用透视变换。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值