图像的知识

最新推荐文章于 2024-06-30 15:56:53 发布

周月亮

最新推荐文章于 2024-06-30 15:56:53 发布

阅读量545

点赞数

分类专栏：计算机视觉文章标签： CV

本文链接：https://blog.csdn.net/syysyf99/article/details/99055518

版权

本文介绍了图像处理中的一些关键概念，如通过transforms.ToTensor()将图像转换为Tensor，理解掩膜mask的作用，灰度图像的特性，以及YOLO模型中的图像处理。此外，还讨论了图像的RGB格式，OpenCV和torchvision在处理图像尺寸和颜色空间转换上的差异，以及如何使用标准化技术如Normalize。最后，探讨了识别图像相似度的方法，如汉明距离和不同哈希算法的应用。

摘要由CSDN通过智能技术生成

通过指定参数transform=transforms.ToTensor()使得所有数据转换为Tensor，如果不进行转换那么返回的是PIL图片。transforms.ToTensor()将尺寸为（HxWxC)且数据位于[0,255]的PIL图片或者是数据类型为np.uint8的Numpy数组转换为尺寸为(CxHxW)且数据类型为torch.float32且位于[0.0,1.0]的Tensor。

注意：由于像素值为0到255的整数，所以刚好是uint8所能表示的范围，包括transforms.ToTensor()在内的一些关于图片的函数就默认输入是uint型，若不是，可能不会报错，但是可能得不到想要的结果。所以如果用像素值（0-255）表示图片，那么最好将其类型设置诶uint8，避免不必要的bug。

掩膜mask

mask是用于部分或完全掩盖对象或者是掩盖部分的图像操作。将mask应用在图形的效果就类似将图形通过遮罩涂在背景上，从而完全或者是部分遮盖了图形的某部分，但是遮罩内的图形是不会变化的。在图像处理中mask常常用来提取ROI区域。
下面的例子来说明mask操作，下面图的最后一个图，是使用两个圆形做mask，取两个圆形的交集，所以得到除了交集以外的部分都涂上黑色。所以可以这么说，和原图（原图在例子中是下图中的第一列图片）进行掩膜操作，就是将mask放在原图上然后在上面刷黑漆，mask区域图像不变，其他区域涂成黑色。
掩膜的作用：
（１）提取感兴趣区域，用预先制作的感兴趣区掩膜与待处理图像相乘，得到感兴趣图像，感兴趣区内图像值不变，而区外图像值都为０．
（２）屏蔽作用，用掩膜对图像上某些区域屏蔽，使其不参加处理或者不参加参数的计算，或仅对屏蔽区做处理。
（３）结构特征提取，用相似性变量或图像匹配方法检测和提取图像中与淹膜相似的结构特征。
（４）特殊形状图像制作

灰度图像

灰度图像的channel==0

yolo

在yolo中，作者读取图像后并不是直接作为训练图像，除了normalization外，还对图像裁剪，双线性插值并且随机旋转，对于原图像可能没什么影响，但是对于０－１的mask图像还是影响挺大，会造成一些1内部的点插值为０，或者一些边缘值不是０－１而是中间值。

图像的RGB格式

OpenCV提供了cv::COLOR_RGB2BGR()和 cv::COLOR_BGR2RGB ()等多个函数，用于色彩空间转换，而OpenCV默认使用的恰恰是BGR色彩空间.
caffe，作为最早最流行的一批库的代表，用了opencv，而opencv默认通道是bgr的。自己训练可以用rgb，新库也基本没了bgr还是rgb这个问题，就是切换下顺序。但如果你要用一些老的训练好的模型，就得兼容老模型的bgr。<