b站小土堆pytorch学习记录——P10-P13 transforms的使用

云霄星乖乖的果冻

已于 2024-03-03 13:46:21 修改

阅读量404

点赞数 4

分类专栏：小土堆pytorch 文章标签： pytorch 学习人工智能深度学习

于 2024-03-02 14:25:04 首次发布

本文链接：https://blog.csdn.net/qq_39991776/article/details/136414626

版权

小土堆pytorch 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

一、前置知识
- 1.torchvision简要介绍
- 2.transforms简要介绍
二、transforms的简单使用
三、transforms的常用工具

一、前置知识

1.torchvision简要介绍

torchvision 是 PyTorch 提供的一个专门针对计算机视觉任务的软件包，它为用户提供了一系列用于处理图像和视频数据的工具和实用函数。
torchvision 包含了许多常用的数据集、模型架构、图像转换类以及实用函数，方便用户进行图像处理和计算机视觉任务的开发和研究。

torchvision 主要功能：

数据集：提供了常用的图像数据集，如MNIST、CIFAR-10、ImageNet 等，方便用户下载和加载这些数据集进行训练和测试。
模型：包含了预训练的深度学习模型，如 ResNet、VGG、AlexNet 等，用户可以直接使用这些模型进行迁移学习或微调。
图像转换：提供了一系列用于数据增强和预处理的函数和类，如对图像进行裁剪、缩放、旋转、归一化等操作。
工具函数：提供了一些实用的函数，如计算图像均值和标准差、可视化图像、计算特征图大小等。

2.transforms简要介绍

在PyTorch中，transforms是一个用于 数据预处理和数据增强 的重要模块，主要包含了各种对图像、文本、音频等数据进行处理的函数和类。transforms模块可以帮助用户方便地对数据进行各种转换操作，以满足神经网络训练的需求。

transforms模块中常用的函数和类：
ToTensor: 将PIL图像或numpy数组转换为PyTorch张量。
Normalize: 标准化图像数据。
Resize: 调整图像大小。
RandomCrop: 随机裁剪图像。
RandomHorizontalFlip: 随机水平翻转图像。
Compose: 将多个转换组合在一起。

二、transforms的简单使用

from PIL import Image
from torchvision import transforms
from torch.utils.tensorboard import SummaryWriter

img_path = "data/train/ants_image/0013035.jpg"
# 使用PIL的Image模块中的open函数打开指定路径的图像文件，将其加载为一个PIL图像对象
img = Image.open(img_path)

writer = SummaryWriter("logs")

# 创建一个transforms对象
tensor_trans = transforms.ToTensor()
# 调用ToTensor()函数，将PIL图像对象img转换为PyTorch的tensor格式，并将结果保存在tensor_img变量中
tensor_img = tensor_trans(img)

writer.add_image("Tensor_img", tensor_img)

print(tensor_img)

运行结果：

		tensor([[[0.3137, 0.3137, 0.3137,  ..., 0.3176, 0.3098, 0.2980],
         [0.3176, 0.3176, 0.3176,  ..., 0.3176, 0.3098, 0.2980],
         [0.3216, 0.3216, 0.3216,  ..., 0.3137, 0.3098, 0.3020],
         ...,
         [0.3412, 0.3412, 0.3373,  ..., 0.1725, 0.3725, 0.3529],
         [0.3412, 0.3412, 0.3373,  ..., 0.3294, 0.3529, 0.3294],
         [0.3412, 0.3412, 0.3373,  ..., 0.3098, 0.3059, 0.3294]],
         
        [[0.5922, 0.5922, 0.5922,  ..., 0.5961, 0.5882, 0.5765],
         [0.5961, 0.5961, 0.5961,  ..., 0.5961, 0.5882, 0.5765],
         [0.6000, 0.6000, 0.6000,  ..., 0.5922, 0.5882, 0.5804],
         ...,
         [0.6275, 0.6275, 0.6235,  ..., 0.3608, 0.6196, 0.6157],
         [0.6275, 0.6275, 0.6235,  ..., 0.5765, 0.6275, 0.5961],
         [0.6275, 0.6275, 0.6235,  ..., 0.6275, 0.6235, 0.6314]],

        [[0.9137, 0.9137, 0.9137,  ..., 0.9176, 0.9098, 0.8980],
         [0.9176, 0.9176, 0.9176,  ..., 0.9176, 0.9098, 0.8980],
         [0.9216, 0.9216, 0.9216,  ..., 0.9137, 0.9098, 0.9020],
         ...,
         [0.9294, 0.9294, 0.9255,  ..., 0.5529, 0.9216, 0.8941],
         [0.9294, 0.9294, 0.9255,  ..., 0.8863, 1.0000, 0.9137],
         [0.9294, 0.9294, 0.9255,  ..., 0.9490, 0.9804, 0.9137]]])

在终端运行 tensorboard --logdir=logs后，打开tensorboard，显示的结果如下：

在这里插入图片描述

tensor到底是什么？
借用小土堆的一个很形象的图：

在这里插入图片描述

三、transforms的常用工具

from PIL import Image
from torchvision import transforms
from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter("logs")
img=Image.open("pic.jpg")

# ToTensor 转换为tensor
trans_tensor = transforms.ToTensor()
img_tensor = trans_tensor(img)
writer.add_image("ToTensor",img_tensor)

# Normalize 标准化
trans_norm = transforms.Normalize([0.5, 0.5, 0.5],[0.5, 0.5, 0.5])
img_norm = trans_norm(img_tensor)
writer.add_image("Normalize", img_norm)

# Resize 修改大小
trans_resize = transforms.Resize((512,512))
img_resize = trans_resize(img)
img_resize_tensor = trans_tensor(img_resize)
writer.add_image("Resize", img_resize_tensor)

# Compose--resize--2 将多个数据转换操作组合
trans_resize_2 = transforms.Resize(512)
trans_compose = transforms.Compose([trans_resize_2, trans_tensor])
img_compose = trans_compose(img)
writer.add_image("Compose", img_compose)

# RandomCrop 随机裁剪
trans_random = transforms.RandomCrop([500,1000])
trans_compose_2 = transforms.Compose([trans_random, trans_tensor])
for i in range(10):
    img_crop=trans_compose_2(img)
    writer.add_image("RandomCrop", img_crop, i)

writer.close()