Python图像处理库的默认导入格式、坐标轴方位易错点辨析

孟大师

已于 2022-04-09 23:53:30 修改

阅读量2.4k

点赞数 1

文章标签： python pytorch opencv

于 2022-01-17 10:02:43 首次发布

本文链接：https://blog.csdn.net/u013598963/article/details/120606043

版权

Python进行图像处理、计算机视觉时有若干常用库，他们导入后的张量形状、坐标轴位置、相互转换方法各有不同。本文的总结包括PIL、skimage、numpy、opencv、pytorch等几个库。

PIL库

PIL库导入的图片为专用PIL对象，无法直接显示某一点像素值，与其他格式之间均需要转换。

PIL中Image.open()方法读入图像通道顺序为RGB。

PIL对象的属性PIL_img.size输出为一个元组，顺序是 (width,height)，这与大多数顺序为H*W的图像处理库不同。

PIL对象与numpy数组间的转换

注意：类型转换前后，数据维度信息由（c,w,h）自动变为(c,h,w)，但通道顺序不会变。

# PIL对象转numpy对象
img_ndarray = np.array(image_PIL)
# numpy对象转PIL对象
image_PIL = Image.fromarray(img_ndarray)

PIL对象与pytorch张量间的转换

一般使用torchvision.transform.ToTensor()函数将PIL转换为torch张量。

注意！！该函数自动执行张量形状调整和归一化，即输出张量形状为C*H*W，数据类型float32，数据范围0~1。

import torch, torchvision
# PIL对象转pytorch张量
img_tensor = torchvision.transform.ToTensor()(img_PIL)

Numpy库和OpenCV库

OpenCV库导入的图片本身就是numpy格式！

OpenCV只是封装了许多图像领域对三维张量的操作，而且值得注意的是，OpenCV只能处理通道数<=4的图像（一般也就是三通道RGB或单通道灰度），但对于高光谱图像则无能为力，实际应用中可以对单通道分别变换后堆叠起来。

OpenCV中使用imread方法读入的图像通道顺序为BGR，形状为H*W*C。

OpenCV中图像坐标轴位置如图所示：

Pytorch库

Pytorch库中的张量与其他库类型均不同，需要转换。一般使用torchvision下transform包中相关函数进行转换。

numpy转tensor

我们一般使用torchvision.transform.ToTensor()函数将numpy图像转换为torch张量。

注意！！当输入numpy对象形状为H*W*C，数据类型为uint8，该函数会自动认为输入数据为图片数据范围为0~255，函数自动执行形状调整和归一化，变为C*H*W，数据类型float32，数据范围0~1。

当输入numpy对象为其他数据类型时，ToTensor()函数则不会有数据类型和维度的自动变换。会基于ndarray和tensor的数据类型对应关系进行转换，维度不变。

另一种方式为torch.from_numpy()，使用该函数时pytorch不会对数据类型和维度做出任何改变。也就意味着我们需要手动调整维度（.permute(2, 1, 0)），手动归一化

tensor转numpy

一般使用如下方式实现Tensor转numpy：

tensor.numpy()  # tensor在内存中时
tensor.cpu().numpy()  # tensor被加载到显存中，需要移回内存中

这里有一大坑点：就在上面我们讲述了当numpy对象数据类型和维度满足一定要求时转tensor后的自动归一化操作。但是！！当我们使用tensor.numpy时，系统并不会反向执行该操作，只会将torch张量直接变成形状、类型对应的numpy数组（那就会变成0~1float -1~1float -0.5~0.5float等，一定要自己想清楚）。

孟大师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python图像处理库的默认导入格式、坐标轴方位易错点辨析

Python进行图像处理、计算机视觉时有若干常用库，他们导入后的张量形状、坐标轴位置、相互转换方法各有不同。本文的总结包括PIL、skimage、numpy、opencv、pytorch等几个库。PIL库PIL库导入的图片为专用PIL对象，无法直接显示某一点像素值，与其他格式之间均需要转换。PIL中Image.open()方法读入图像通道顺序为RGB。PIL对象的属性PIL_img.size输出为一个元组，顺序是(width,height)，这与大多数顺序为H*W的图像处理库不同。PI.
复制链接

扫一扫