谷歌大热的深度学习框架tensorflow,虽然也有C的接口,但用的比较多而且较方便的还是基于python的接口,在图像处理时用的比较多的是opencv库,之前一直学的是C语言的接口,为了与tensorflow进行对接,还是有必要看一下opencv的python接口。
基本的I/O脚本:
大多数的CV需要以图像作为输入,同时也会以图像作为输出结果。一个交互式的CV应用程序会议摄像头作为输入源,其他的输入和输出还看是图像文件,视频文件和原始字节(raw byte)。
图像的读写:
OPENCV中的imread()函数和imwrite()函数能支持各种静态文件格式,支持BMP、PNG、JPEG和TIFF格式的文件。
接下来是用Python和NumPy来表示一副图片:
无论用那种格式,每一个像素都会有一个值,但不同格式表示像素的方式会不同,如用NumPy数组创建一个黑色的正方形图像:
import cv2
import numpy as np
img=np.zeros((3,3),dtype=np.uint8)
print(img)
结果:
[[0 0 0]
[0 0 0]
[0 0 0]]
每个像素都由一个8位整数老表示,即每个像素值得范围为0~255.
现在用cv2.cvtColor
函数将图像转换成RGB格式:
import cv2
import numpy as np
img=np.zeros((3,3),dtype=np.uint8)
img=cv2.cvtColor(img,cv2.COLOR_GRAY2BGR)
print(img)
结果:
[[[0 0 0]
[0 0 0]
[0 0 0]]
[[0 0 0]
[0 0 0]
[0 0 0]]
[[0 0 0]
[0 0 0]
[0 0 0]]]
从几个中看出:现在每个像素由三元数组表示,并且每个整形(integer)向量分别表示一个B,G,R通道。其他色彩空间(如HSV)也以同样的表示方式来表示像素,只是取值范围不同(HSV模型表示方式不同),
可以通过shape的属性来查看图像的结构,它会返回行和列。如果一个通道以上会返回通道数:
import cv2
import numpy as np
img=np.zeros((3,3),dtype=np.uint8)
print(img.shape)
img=cv2.cvtColor(img,cv2.COLOR_GRAY2BGR)
print(img.shape)
结果:
(3, 3)
(3, 3, 3)
BGR格式返回了3个通道;
opencv库对图像的转换也非常方便:
import cv2
img=cv2.imread('time.jpg')
cv2.imwrite('mytime.png',img)
只需在imwrite()时改变图片的后缀就行了,
在默认情况下,即使图像文件为灰度格式,imread()函数也会返回BGR格式的图像,BGR与RGB所表示的色彩空间相同,但字节顺序相反。下面是可作为imread()函数的参数:
IMREAD_ANYCOLOR=4
IMREAD_ANYDEPTH=2
IMREAD_COLOR=1
IMREAD_GRAYSCALE=0
IMREAD_LOAD_GDAL=8
IMREAD_UNCHANGED=-1
下面例子是以灰度形式加载图片(这个过程会丢失所有的色彩信息),之后又保持为灰度的PNG图像:
import cv2
img=cv2.imread('mytime.png',cv2.IMREAD_GRAYSCALE)
cv2.imwrite('mytime2.png',img)
原图像:
转换后的图片:
无论采用哪种模式,imread()函数会删除所有alpha(透明度)通道的信息。iimwrite()函数要求图像为BGR或灰度格式,并且每个通道都要有一定bit,输出格式要支持这些通道,例如,bmp格式要求每个通道为8位,而PNG允许每个通道为8位或16位。