图像的几何变换
图像的几何变换又称为图像空间变换,它将一幅图像中的坐标位置映射到另一幅图像中的新生位置。几何变换不改变图像的像素值,只是在图像平面上进行像素的重新安排。
我们以最常用的平移和旋转为例进行学习。在深度学习领域,我们常用平移、旋转、镜像等操作进行数据增广;在传统CV领域,由于某些拍摄角度的问题,我们需要对图像进行矫正处理,而几何变换正是这个处理过程的基础,因此了解和学习几何变换也是有必要的。
算法原理
变换形式
冈萨雷斯的《数字图像处理_第三版》的变换矩阵方式如下:
其中的T就是变换矩阵,其中
(
v
,
w
)
(v,w)
(v,w)为原坐标,
(
x
,
y
)
(x,y)
(x,y) 为变换后的坐标,不同的变换对应不同的矩阵。还有一些常见的如下:
坐标系变换
变换中心,对于缩放、平移可以以图像坐标原点(图像左上角为原点)为中心变换,这不用坐标系变换,直接按照一般形式计算即可。而对于旋转和偏移,一般是以图像中心为原点,那么这就涉及坐标系转换了。
数学课本中常见的坐标系是以图像中心为原点,水平向右为 X 轴,垂直向上为 Y 轴,称为笛卡尔坐标系.
因此,对于旋转和偏移,就需要3步(3次变换):
- 将输入原图图像坐标转换为笛卡尔坐标系;
- 进行旋转计算。旋转矩阵前面已经给出了;
- 将旋转后的图像的笛卡尔坐标转回图像坐标。
图像坐标系与笛卡尔坐标系转换关系
在图像中我们的坐标系通常是AB和AC方向的,原点为A,而笛卡尔直角坐标系是DE和DF方向的,原点为D。
令图像表示为
M
×
N
M×N
M×N的矩阵,对于点A而言,两坐标系中的坐标分别是
(
0
,
0
)
(0,0)
(0,0)和
(
−
N
/
2
,
M
/
2
)
(-N/2,M/2)
(−N/2,M/2),则图像某像素点
(
x
′
,
y
′
)
(x',y')
(x′,y′)转换为笛卡尔坐标
(
x
,
y
)
(x,y)
(x,y)转换关系为,
x
x
x为列,
y
y
y为行:
x
=
x
1
−
N
/
2
x=x1-N/2
x=x1−N/2
y
=
−
y
′
+
M
/
2
y=-y'+M/2
y=−y′+M/2
逆变换为:
x
′
=
x
+
N
/
2
x'=x+N/2
x′=x+N/2
y
′
=
−
y
+
M
/
2
y'=-y+M/2
y′=−y+M/2
于是,根据前面说的3个步骤(3次变换),旋转(顺时针旋转)的变换形式就为,3次变换就有3个矩阵:
反向映射
前向映射就是根据原图用变换公式直接算出输出图像相应像素的空间位置,那么这会导致一个问题:可能会有多个像素坐标映射到输出图像的同一位置,也可能输出图像的某些位置完全没有相应的输入图像像素与它匹配,也就是没有被映射到,造成有规律的空洞(黑色的蜂窝状)。
更好的一种方式是采用 反向映射(Inverse Mapping):扫描输出图像的位置(x,y),通过 [ v , w , 1 ] = [ x , y , 1 ] ∗ T − 1 [v,w,1]=[x,y,1]*T^{-1} [v,w,1]=[x,y,1]∗T−1(为T的逆矩阵)计算输入图像对应的位置 (v,w),通过插值方法决定输出图像该位置的灰度值
插值
采用反向映射后,需通过插值方法决定输出图像该位置的值,因此需要选择插值算法。通常有最近邻插值、双线性插值,双三次插值等