回归任务，使用OpenCV对图像和label进行旋转&一些值得注意的细节

最新推荐文章于 2024-07-10 11:09:07 发布

morning_sun_lee

最新推荐文章于 2024-07-10 11:09:07 发布

阅读量754

点赞数 1

分类专栏： OpenCV 图像处理

本文链接：https://blog.csdn.net/qq295456059/article/details/85174975

版权

OpenCV 同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

图像处理

5 篇文章 0 订阅

订阅专栏

在训练神经网络做图像分类任务的时候，我们经常会用到旋转这一数据增强方式，而如果是回归任务，那么我们在旋转图片的同时，还需要对label（关键点的坐标）进行旋转。下面就介绍如何使用opencv对回归任务中的图片和label进行旋转。

1 旋转矩阵

在介绍相关的函数之前，我们需要先了解旋转矩阵的推导，这一部分 link 已经介绍得很详细（对于图像来说可以只看二维的部分）。概括起来就是，如果我们想绕一个任一点 P(tx, ty) 进行旋转，那么我们需要：

将P点移动到坐标原点；
进行相应的旋转操作；
将P点移回原来的位置。

对应的变换矩阵如下（靠右边的矩阵对应的变换先进行）：

$\begin{bmatrix} 1 & 0 & tx \\ 0 & 1 & ty \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} cos\theta & -sin\theta & 0 \\ sin\theta & cos\theta & 0 \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} 1 & 0 & -tx \\ 0 & 1 & -ty \\ 0 & 0 &1 \end{bmatrix} (1)$

旋转后的坐标（这里使用的是齐次的坐标形式，便于将旋转和平移操作合在一起）：

$\begin{bmatrix} x^{\prime} \\ y^{\prime} \\ 1 \end{bmatrix} = M \cdot \begin{bmatrix} x \\ y \\ 1 \end{bmatrix} (2)$

对变换矩阵进行化简，得到：
$\begin{bmatrix} cos\theta & -sin\theta & tx \cdot (1-cos\theta)+ty \cdot sin\theta \\ sin\theta & cos\theta & -tx \cdot sin\theta + ty \cdot (1-cos\theta)\\ 0 & 0 &1 \end{bmatrix} (3)$

2 OpenCV 中相应的函数

了解了旋转矩阵的含义之后，我们进一步看一下如何使用OpenCV中相应的函数对图像和坐标进行旋转。我这里以python为例，C++也是类似的：

使用cv2.getRotationMatrix2D(center, angle, scale)函数获得变换矩阵 $M$ （这里 $M$ 是一个2行3列的矩阵，省去了公式(3)中的第三行）；
将上面得到的变换矩阵 $M$ 作为仿射变换函数cv2.warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]])的参数，对原始图片src进行旋转（到这里图像的旋转完成）；

根据公式(2)计算出旋转后的label坐标值:

x_prime = M[0][0] * x + M[0][1] * y + M[0][2]
y_prime = M[1][0] * x + M[1][1] * y + M[1][2]

到这里，图像和label的旋转都完成了。

下面有一些细节需要注意：

细心的朋友可能会看到，OpenCV的官方文档上，getRotationMatrix2D 函数返回的矩阵为：
$\begin{bmatrix} cos\theta & sin\theta & tx \cdot (1-cos\theta) - ty \cdot sin\theta \\ -sin\theta & cos\theta & tx \cdot sin\theta + ty \cdot (1-cos\theta) \end{bmatrix} (4)$
形式和公式(3)基本一样，不同的是 $sin\theta$ 取了负号，主要的原因是：我们上面的推导（公式(3)）使用的是标准的坐标系（x轴正方向向右，y轴正方向向上），而在图像坐标系中，x轴正方向同样是向右，但是y轴正方向反过来了，是向下，这就导致了 $sin\theta$ 项取了负号，如果还不能理解，我们可以回到公式(1)，如果我们是在图像坐标系（y轴正方向向下）中进行旋转，那我们在将P(tx, ty)移动到原点之后，需要多一步翻转（y值取反）的操作，在旋转之后，需要再次翻转，最后再将P(tx, ty)点移回原来的位置上，所以这个时候公式(1)变成下面的形式：
$\begin{bmatrix} 1 & 0 & tx \\ 0 & 1 & ty \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} cos\theta & -sin\theta & 0 \\ sin\theta & cos\theta & 0 \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 &1 \end{bmatrix} \cdot \begin{bmatrix} 1 & 0 & -tx \\ 0 & 1 & -ty \\ 0 & 0 &1 \end{bmatrix} (5)$
公式(5)化简之后就是公式(4)。
cv2.getRotationMatrix2D(center, angle, scale)函数的angle是角度而不是弧度（具体可以参见最后的python示例代码）；
图像和label需要使用相同的单位（像素），假设我们的图片src是640*480的，那么对应的旋转中心center就是(320, 240)，这个时候我们使用cv2.getRotationMatrix2D(center, angle, scale)计算出来的变换矩阵是以(320, 240)为中心旋转的，当我们对label进行旋转的时候，如果label被归一化到0-1之间或者其他的区间，那么我们需要先将label反归一化到图像的真实大小，这样我们进行上面的步骤3的 x 和 y 应该是反归一化后的坐标，这样以(320, 240)为中心对label的才不会出错；

3 简单的验证代码

# -*- coding: UTF-8 -*-

import math
import numpy as np
def rotate_test():

    im = np.ones((300, 300, 3), dtype=np.uint8)
    print(im.shape)

    theta = 0.5
    tx = 150.
    ty = 150.

    rot_mat = cv2.getRotationMatrix2D((tx, ty), theta/np.pi*180, 1)	### 弧度转换为角度

    print(rot_mat)

    t_1 = np.array([[1, 0, tx],
                    [0, 1, ty],
                    [0, 0, 1]], dtype=float)
    t_2 = np.array([[math.cos(theta), math.sin(theta), 0],
                    [-math.sin(theta), math.cos(theta), 0],
                    [0, 0, 1]], dtype=float)
    t_3 = np.array([[1, 0, -tx],
                    [0, 1, -ty],
                    [0, 0, 1]], dtype=float)

    t_com = t_1.dot(t_2).dot(t_3)
    print(t_com)	### rot_mat 和 t_com 是一样的

if __name__ == '__main__':
	rotate_test()