pytorch中图片类型的转换——PIL、tensor、numpy

最新推荐文章于 2024-01-27 14:43:24 发布

长歌丶采薇

最新推荐文章于 2024-01-27 14:43:24 发布

阅读量9.9k

点赞数 25

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_43179892/article/details/118975938

版权

本文介绍了在PyTorch中如何进行图片类型的转换，包括PIL图像、Tensor和NumPy数组之间的相互转换。内容涉及PIL的Image读入、转换为Tensor以及Tensor与NumPy的转换，详细解释了转换过程和注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pytorch中图片类型的转换——PIL、tensor、numpy

前言

在计算机视觉任务中，大多数时候都涉及到图片的加载、训练以及训练结果的可视化。在实操过程中，经常会遇到图片各种类型之间的转换问题。本文主要是对笔者在学习过程中所遇到的一些问题的总结，以便自己日后查阅方便。如有错误，请不吝赐教。

图片的读入

通常是有两种读入方式，分别是用PIL中的Image读入和用openCV读入。PIL(Python Imaging Library)是Python中最基础的图像处理库，OpenCV是一个很强大的图像处理库，适用面更广。两种读入方式是有区别的，主要有以下几个区别

图片格式不同，Image读入的是“RGB”，Opencv读入的是“BGR”。
读入图片的尺寸不同，Image读入的是 w h，Opencv读入的是h w c。其中w是宽，h是高，c是通道数。
Image读入是Image类无法直接显示其像素点的值（可以转换成numpy显示），Opencv读入的直接是numpy的格式。可以直接显示其像素值。

代码演示

导入包（以前所有代码运行需要提前导入的包）

import os.path
from PIL import Image
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torchvision.transforms as standard_transforms

读入

#Iamge.open(path).convert("RGB") 
#cv2.imread(path)
image = Image.open("1.jpg").convert("RGB")
image2 = cv2.imread("1.jpg")
print("Image read",image.size)  # w h
print("Opencv read",image2.shape)  # h w c
print(image)
print(image2)

result如下，可以看到Image读入的是无法直接显示的。

图片的转换

在视觉任务中加载图片通常要将其变为tensor，才能参与训练。下面将描述如何将读入的图片变成tensor，或者将tensor转成能够直接显示的图片格式（tensor类型的图片是无法直接可视化的）

PIL与tensor的相互转换

PIL和tensor的相互转换，要利用torchision中transforms中的一些类。PIL转tensor用里面的ToTensor转PIL用里面的ToPILImage类（这个类也可以将numpy格式的转为PIL）。

首先定义两个transform，以便接下来使用

transform1 = standard_transforms.ToTensor()
transform2 = standard_transforms.ToPILImage()

将上一节中的image转为tensor。要注意的是转为tensor后图片中像素点的方式也发生了变化，会将 w,h,c变为c,h,w，并且像素值由[0,255]变成了[0,1]。
另外通常对于tensor要变为(n,c,w,h)，这时候要用到unsqueeze(x) 是增加一维， squeeze(x) 去掉维度为1的维度。其中x是对dim=x的进行增或者减

image = Image.open("1.jpg").convert("RGB")
imag

最低0.47元/天解锁文章