Opengl投影变换理解-CSDN博客

本文链接：https://blog.csdn.net/qq_36831368/article/details/123707451

本文详细介绍了OpenGL和OpenCV中投影矩阵的构建过程，包括正交投影和透视投影，以及OpenGL标准和OpenCV标准下的坐标变换。内容涵盖相机坐标系、裁剪空间、标准化设备坐标、透视除法等概念，同时探讨了两种投影模型的差异，并解释了如何在OpenGL中结合OpenCV进行3D到2D的转换。此外，还讨论了针孔相机模型的畸变校正及其在图像处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

坐标到达观察空间之后，我们需要将其投影到裁剪坐标。裁剪坐标会被处理至-1.0到1.0的范围内，并判断哪些顶点将会出现在屏幕上。
而 $[- 1.0, 1.0]$ 构成的正方体又叫规则观察体(Canonical View Volume, CVV)

一、流程

计算机显示器是一个 2D 表面。OpenGL 渲染的 3D 场景必须作为 2D 图像投影到计算机屏幕上。
1、定义投影矩阵，指定了一个范围的坐标，以此来模拟相机的可视范围
2、投影矩阵接着会将在这个指定的范围内的坐标变换为标准化设备坐标的范围 $[- 1.0, 1.0]$ 。所有在范围外的坐标不会被映射到在-1.0到1.0的范围之间，所以会被裁剪掉。以此模拟相机的可视范围。
3、裁剪完后，进行透视除法，将4D裁剪空间坐标变换为3D标准化设备坐标。
过程中涉及到的坐标系变换如下：

View Space=>(投影矩阵)=> Clip Space => (透视除法) => NDC

二、正交投影

1、创建一个正射投影矩阵需要指定可见平截头体的宽、高和长度。在使用正射投影矩阵变换至裁剪空间之后处于这个平截头体内的所有坐标将不会被裁剪掉。
2、正交投影的变换矩阵可以理解为先将平截头体的中心平移到坐标系原点，再进行缩放
在这里插入图片描述
3、正交投影没有远近之分，所以 $\omega$ 为1，透视除法不改变方向，不翻转坐标系，直接对应理想的图像坐标系

三、透视投影

透视投影有两种理解方式：
一、看成透视到正交，再正交投影变换；
二、针孔模型的透视投影

第一种方式

如下所示，先将透视投影指定的平截头体变形成正交投影中的平截头体
在这里插入图片描述
可以看到，透视投影把所有通过原点（眼睛）的直线映射到平行于z轴的直线上,而并不移动z=n平面中直线上点的位置，如下所示：

变换过程中需要铭记两点：

变换前后近平面的点始终在近平面上；
变形前后远平面的点始终在远平面上；

如下所示：
在这里插入图片描述
根据第1、2点，且正交投影中平截头体的一条平行线在近平面、远平面的交点的 $x 、 y$ 坐标相等，有

在这里插入图片描述
近平面的交点 $(x^{'}, y^{'}, z^{'})$ 和远平面的蓝点(点 $(x, y, z)$ 变形之后)的 $x 、 y$ 坐标相等，由相似三角形得到：
$y'=\frac{n}{z}y \quad x'=\frac{n}{z}x$ 由齐次坐标表示这一过程：

乘以 $z$ 是为了保留深度信息，所以将 $\omega$ 设为 $z$ 。
可以得到透视到正交的变换矩阵，
在这里插入图片描述
由近平面的点在透视到正交过程中不变，且近平面的 $z$ 坐标为 $n$ ，可以得到：

可以看到，第三行不含 $x 、 y$ ，因此必是 $(0, 0, A, B)$ 。有：

同理，由远平面的点始终在远平面，远平面的 $z$ 坐标为 $f$ ，可得：
在这里插入图片描述

因此变换矩阵为：
$M_{persp \rightarrow ortho}= \left( \begin{matrix} n & 0 & 0 & 0\\ 0 & n & 0 & 0\\ 0 & 0 & n+f & -nf\\ 0 & 0 & 1 & 0 \end{matrix} \right)$ 完整投影矩阵如下：
$M_{persp}=M_{ortho}M_{persp \rightarrow ortho}=\left( \begin{matrix} \frac{2n}{r-l} & 0 & -\frac{r+l}{r-l} & 0 \\ 0 & \frac{2n}{t-b} & -\frac{t+b}{t-b} & 0 \\ 0 & 0 & \frac{n+f}{n-f} & -\frac{2nf}{n-f} \\ 0 & 0 & 1 & 0 \\ \end{matrix} \right)\\ \frac{b-y_p}{b-t}=\frac{1-y_{NDC}}{1-(-1)}\\ \Rightarrow y_{NDC}=-\frac{2y_p}{t-b}+\frac{t+b}{t-b}$

注意：目前为止的内容均来自闫大神的GAMES101课件，上文出现的 $l 、 r 、 t 、 b 、 n 、 f$ 均为坐标，即包含正负值。并且裁剪空间为右手坐标系。

下面参考[9]，根据相机坐标系、裁剪空间坐标系变换和相机朝向梳理常见投影矩阵。

在开始前需要注意以下四点：
1、OpenGL通常使用用户指定的 $n$ 和 $f$ 的绝对值，即相机朝向对公式有影响。为了与 $M_{persp}$ 区分，通常设置 $n e a r = ∣ n ∣, f a r = ∣ f ∣$ 。
2、相机坐标系中 $z_e$ 表示与相机的位置关系，而裁剪空间中 $\omega_c$ 则体现了齐次坐标的意义——表示与相机的距离，即 $z_e$ 的模，因此有 $\omega_c=|z_e|$ 。
3、裁剪空间中 $z_c$ 表示深度，需要符合直觉——离得越近的物体，深度越小。
4、个人认为OpenGL的裁剪空间应为左手坐标系，因为透视除法只是对点的坐标进行缩放，并没有改变坐标系，而投影变换才是改变坐标系的原因。

相机坐标系 $\xrightarrow{翻转z轴}$ 裁剪空间，相机指向 $z$ 轴负向（OpenGL官方）
相机指向 $z$ 轴负向意味着 $n = - ∣ n ∣ = - n e a r, f = - ∣ f ∣ = - f a r$ ， $M_{persp}$ 改写为：
$M_{persp}=\left( \begin{matrix} -\frac{2near}{r-l} & 0 & -\frac{r+l}{r-l} & 0 \\ 0 & -\frac{2near}{t-b} & -\frac{t+b}{t-b} & 0 \\ 0 & 0 & \frac{near+far}{near-far} & \frac{2nearfar}{near-far} \\ 0 & 0 & 1 & 0 \end{matrix} \right)$ 相机坐标系： $x$ 正轴指向右侧， $y$ 正轴指向上方， $z$ 正轴指向相机的反方向（与GAMES101中相同）
裁剪空间： $x$ 正轴指向右侧， $y$ 正轴指向上方， $z$ 正轴指向相机同方向（与GAMES101中相同）
因此相机坐标系到裁剪空间只需翻转 $z$ 轴：
$M_{reverse-z}=\left( \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & -1 & 0\\ 0 & 0 & 0 & 1 \end{matrix} \right)$ 此外，在上文齐次坐标表示相似三角形那里，乘以 $z$ ，这个目的其实是为了将 $\omega_e$ 左乘 $M_{persp \rightarrow ortho}$ 得到 $\omega_c$ 。 $\omega_c=|z_e|=-z_e$ ，即应该乘以 $- z$ 。

因此，有
$M_{persp \rightarrow ortho}^{OpenGL}= \left( \begin{matrix} -1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & -1 & 0\\ 0 & 0 & 0 & -1 \end{matrix} \right)M_{persp \rightarrow ortho}=M_{minus}M_{persp \rightarrow ortho}$ 最终OpenGL的投影矩阵 $M_{OpenGL}$ ：
$\begin{array}{ll} &M_{OpenGL}=M_{reverse-z}M_{ortho}M_{minus}M_{persp \rightarrow ortho}\\ \Rightarrow &M_{OpenGL}=M_{reverse-z}M_{minus}M_{ortho}M_{persp \rightarrow ortho}\\ \Rightarrow &M_{OpenGL}=M_{reverse-z}M_{minus}M_{persp}\\ \Rightarrow &M_{OpenGL}=\left( \begin{matrix} \frac{2near}{r-l} & 0 & \frac{r+l}{r-l} & 0 \\ 0 & \frac{2near}{t-b} & \frac{t+b}{t-b} & 0 \\ 0 & 0 & \frac{near+far}{near-far} & \frac{2nearfar}{near-far} \\ 0 & 0 & -1 & 0 \end{matrix} \right) \end{array}$

我们可以通过设置 $l 、 r 、 b 、 t$ 和near的值任意定义窗口，有时希望定义一个比较简单的系统，该系统是从窗口的中心看出去，因此 $l = - r, b = - t$ ，即OpenGL中gluPerspective(fov, aspect, near, far)函数的设置。
fov即视野，是视锥体在 $x z$ 平面或者 $yz$ 平面的开角角度，具体哪个平面都可以。OpenGL使用 $yz$ 平面，为俯仰角fovy。
aspect即投影平面的宽高比。

左侧为 $x z$ 平面，右侧为 $yz$ 平面。如图中所示， $x z$ 平面的top计算涉及除法，不安全，因此更多采用 $yz$ 平面。将右侧 $yz$ 平面公式代入投影矩阵，便得gluPerspective对应投影矩阵：
$M_{persp}=\left( \begin{matrix} \frac{1}{aspect \cdot tan(\frac{fovy}{2})} & 0 &0 & 0 \\ 0 & \frac{1}{tan(\frac{fovy}{2})} & 0 & 0 \\ 0 & 0 & \frac{near+far}{near-far} & -\frac{2nearfar}{near-far} \\ 0 & 0 & -1 & 0 \end{matrix} \right)$

相机坐标系 $\xrightarrow{翻转z轴}$ 裁剪空间，相机指向 $z$ 轴正向（OpenCV）
相机指向 $z$ 轴正向意味着 $n = ∣ n ∣ = n e a r, f = ∣ f ∣ = f a r$ ， $M_{persp}$ 改写为：
$M_{persp}=\left( \begin{matrix} \frac{2near}{r-l} & 0 & -\frac{r+l}{r-l} & 0 \\ 0 & \frac{2near}{t-b} & -\frac{t+b}{t-b} & 0 \\ 0 & 0 & \frac{near+far}{near-far} & -\frac{2nearfar}{near-far} \\ 0 & 0 & 1 & 0 \end{matrix} \right)$ 相机坐标系： $x$ 正轴指向右侧， $y$ 正轴指向下方， $z$ 正轴指向相机同方向（与GAMES101中不同）
裁剪空间： $x$ 正轴指向右侧， $y$ 正轴指向上方， $z$ 正轴指向相机同方向（与GAMES101中不同）
因此需由GAMES101中坐标系先绕 $x$ 轴旋转180度到本相机坐标系，再由本坐标系翻转 $y$ 轴到裁剪空间：
$M_{rotate-x}=\left( \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & -1 & 0\\ 0 & 0 & 0 & 1 \end{matrix} \right)\\ M_{reverse-y}=\left( \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{matrix} \right)$ 此外，在齐次坐标表示相似三角形处因 $\omega_c=|z_e|=z_e$ ，所以保持不变。
最终OpenCV的投影矩阵 $M_{OpenCV}$ ：
$\begin{array}{ll} &M_{OpenCV}=M_{reverse-y}M_{ortho}M_{persp \rightarrow ortho}M_{rotate-x}\\ \Rightarrow &M_{OpenCV}=M_{reverse-y}M_{rotate-x}M_{ortho}M_{persp \rightarrow ortho}\\ \Rightarrow &M_{OpenCV}=\left( \begin{matrix} \frac{2near}{r-l} & 0 & -\frac{r+l}{r-l} & 0 \\ 0 & \frac{2near}{t-b} & -\frac{t+b}{t-b} & 0 \\ 0 & 0 & -\frac{near+far}{near-far} & \frac{2nearfar}{near-far} \\ 0 & 0 & 1 & 0 \end{matrix} \right) \end{array}$

第二种方式

根据针孔相机的成像原理，将透视投影分为两步：

从平截头体内一点投影到近平面
对投影点坐标进行缩放，得到clip坐标，范围为 $[-\omega,\omega]^4$

投影过程如下所示：
在这里插入图片描述
$x_e,y_e,z_e)$ 为观察空间中的点 $a$ 的3D坐标， $x_p,y_p,z_p)$ 为点 $a$ 的投影点 $a^{'}$ 的坐标， $z_p=-n$ 。
由相似三角形得到，

缩放成规则立方体：
$(x_c,y_c,z_c,\omega_c)$ 为点a在裁剪空间的齐次坐标， $\omega_c$ 设为 $z_e$ 的原因上面已有说明。
在这里插入图片描述
将点 $a^{'}$ 的 $x_p$ 和 $y_p$ 以线性关系映射到裁剪空间的 $x_c$ 和 $y_c$ ，有：
$\rightarrow [-\omega,\omega] \rightarrow [z_e,-z_e]\\ [b,t] \rightarrow [-\omega,\omega] \rightarrow [z_e,-z_e]$ 由线性归一化的等比例性质，有
$\left\{ \begin{array}{ll} \frac{x_p-l}{r-l}=\frac{x_c-z_e}{-z_e-z_e} \\ \frac{y_p-b}{t-b}=\frac{y_c-z_e}{-z_e-z_e} \end{array} \right.\\ \Rightarrow \left\{ \begin{array}{ll} x_c=-2z_e\frac{x_p-l}{r-l}+z_e=-2z_e\frac{\frac{n \cdot x_e}{-z_e}-l}{r-l}+z_e=\frac{2n}{r-l}\cdot x_e+\frac{r+l}{r-l}\cdot z_e\\ y_c=-2z_e\frac{y_p-b}{t-b}+z_e=-2z_e\frac{\frac{n \cdot y_e}{-z_e}-b}{t-b}+z_e=\frac{2n}{t-b}\cdot y_e+\frac{t+b}{t-b}\cdot z_e \end{array} \right.$ 从上述方程中，可以得到投影矩阵的第一、二行
实际上， $z_p$ 对于投影后的点 $a^{'}$ 已经没有意义了，这个信息点已经没用了，因此 $z_c$ 不取决于 $x_e$ 和 $y_e$ 。但对于3D图形管线来说，为了便于进行后面的片元操作，例如 $z$ 缓冲消隐算法，有必要把投影之前的 $z_e$ 保存下来，方便后面使用。因此：
在这里插入图片描述
$z_c=Az_e+B\\ 已知z_e \in [-n,-f] \rightarrow z_c \in [-\omega_c,\omega_c]\\ 当z_e=-n时，z_c=-\omega_c=-(-z_e)=-n\\ 当z_e=-f时，z_c=\omega_c=-z_e=f\\ \Rightarrow \left\{ \begin{array}{ll} -n=-An+B\\ f=-Af+B \end{array} \right.$ 求解得到

完整投影矩阵如下：
在这里插入图片描述

四、OpenGL和OpenCV结合

首先，需要明白OpenGl的透视投影模型和普通相机的小孔投影模型是类似的，其投影矩阵对应于相机的内参矩阵 $K$ ，观察矩阵对应于相机的外参矩阵 $[R ∣ T]$ 。
内参矩阵 $K$ ：
$K=\left[ \begin{matrix} fx& 0 & c_x \\ 0 & fy & c_y \\ 0 & 0 & 1 \\ \end{matrix} \right]$ $f x 、 f y$ 代表像距，表示相机在水平和垂直方向上的像距（ $f x 、 f y$ 一般相等）， $c x 、 cy$ 表示理想的图像坐标系原点在像素坐标系下的坐标。
将内参矩阵按照几何特性和光学特性拆分：
$K=\left[ \begin{matrix} \frac{1}{dx}& 0 & c_x \\ 0 & \frac{1}{dy} & c_y \\ 0 & 0 & 1 \\ \end{matrix} \right] \cdot \left[ \begin{matrix} f& 0 & 0 \\ 0 & f & 0 \\ 0 & 0 & 1 \\ \end{matrix} \right]$ 左侧为几何特性，描述图像坐标系到像素坐标系的转换；右侧为光学特性，描述相机坐标系到图像坐标系的转换。 $d x 、 d y$ 表示 $x$ 轴与 $y$ 轴物理像素尺寸，即1个像素是 $d x$ 毫米。 $f$ 表示像距，以下为方便与远平面 $f$ 区分，用 $f oc a l$ 表示。
有 $f_x=\frac{f}{dx}，f_y=\frac{f}{dy}$

注意：在计算机视觉中，一般把 $f$ 称为焦距，其实是不准确的，在摄影测量学中更准确的表达是像距（主距），即焦点到像平面的距离。焦距实际上是光学中心到焦点的距离。

需要明白的是，观察空间的三维点是投影到像平面的，需要注意近平面、远平面和像平面的区别。在OpenGL中，近、远平面到原点的距离是由用户指定，默认近平面就是像平面，到原点的距离是 $n e a r$ ，即 $f oc a l = n e a r$ 。
视图矩阵不是本文的重点，因此，外参矩阵 $[R ∣ T]$ 就不展开描述了。
$K$ 和 $[R ∣ T]$ 不能直接使用，原因如下：

OpenGL投影模型使用的坐标系与OpenCV的不同；
OpenCV中，坐标系变换为世界坐标系->相机坐标系->图像坐标系->像素坐标系；
OpenGL仅有屏幕空间（图像空间），没有图像空间与像素空间的区别，即世界坐标系->相机坐标系->裁剪空间->NDC->屏幕空间

OpenGL和OpenCV结合也因此有两种方式：

采用OpenGL坐标系变换
采用OpenCV坐标系变换

4.1 采用OpenGL坐标系变换

首先，需要明确的是，相机的外参矩阵和内参矩阵都是在OpenCV坐标系下的。
其次，根据自己的需求，确定相机空间和裁剪空间分别是什么坐标系。
然后，确定相机内参矩阵与投影矩阵参数 $l 、 r 、 b 、 t$ 对应关系。
最后，进行坐标系变换，确定最终的投影矩阵。

4.1.1 $M_{OpenCV}$

最基本的，相机空间和裁剪空间都采用OpenCV标准，即投影矩阵为 $M_{OpenCV}$
在这里插入图片描述图中 $U 、 V$ 为像素坐标系，原点为左上角， $U$ 轴向右， $V$ 轴向下， $u_0、v_0$ （即 $c_x、c_y$ ）为图像坐标系原点； $X 、 Y$ 属于OpenCV相机坐标系，原点为中心， $X$ 轴向右， $Y$ 轴向下。面ABCD为相机坐标系近平面， $W 、 H$ 为近平面宽、高。因此，有：
$l=-u_0 \cdot dx=-u_0\frac{near}{f_x}\\ r=(W-u_0) \cdot dx=(W-u_0)\frac{near}{f_x}\\ b=(H-v_0) \cdot dy=(H-v_0)\frac{near}{f_y}\\ t=-v_0 \cdot dy=-v_0\frac{near}{f_y}$ 代入投影矩阵 $M_{OpenCV}$ ，最终形式为：
$M_{OpenCV}=\left( \begin{matrix} \frac{2f_x}{W} & 0 & \frac{2c_x-W}{W} & 0 \\ 0 & -\frac{2f_y}{H} & \frac{H-2c_y}{H} & 0 \\ 0 & 0 & -\frac{near+far}{near-far} & \frac{2near \cdot far}{near-far} \\ 0 & 0 & 1 & 0 \\ \end{matrix} \right)$

4.1.2 $M_{OpenGL}$

广泛使用的是相机空间和裁剪空间都采用OpenGL标准，即投影矩阵为 $M_{OpenGL}$ 。
注意，由于此处相机空间为OpenGL标准，外参矩阵 $[R ∣ T]$ 需要坐标系变换。
在这里插入图片描述

图中 $U 、 V$ 为像素坐标系，原点为左上角， $U$ 轴向右， $V$ 轴向下， $u_0、v_0$ （即 $c_x、c_y$ ）为图像坐标系原点； $X 、 Y$ 属于OpenGL相机坐标系，原点为中心， $X$ 轴向右， $Y$ 轴向上。面ABCD为相机坐标系近平面， $W 、 H$ 为近平面宽、高。因此，有：
$l=-u_0 \cdot dx=-u_0\frac{near}{f_x}\\ r=(W-u_0) \cdot dx=(W-u_0)\frac{near}{f_x}\\ b=(v_0-H) \cdot dy=(v_0-H)\frac{near}{f_y}\\ t=v_0 \cdot dy=v_0\frac{near}{f_y}$ 代入投影矩阵 $M_{OpenGL}$ ，最终形式为：
$M_{OpenGL}=\left( \begin{matrix} \frac{2f_x}{W} & 0 & \frac{W-2c_x}{W} & 0 \\ 0 & \frac{2f_y}{H} & \frac{2c_y-H}{H} & 0 \\ 0 & 0 & \frac{near+far}{near-far} & \frac{2near \cdot far}{near-far} \\ 0 & 0 & -1 & 0 \\ \end{matrix} \right)$
坐标系变换如下：
$\begin{array}{ll} V_{c,OpenGL}&=M_{OpenGL}M_{view}V_w\\ &=M_{reverse-y}KM_{toView}[R|t]V_w,M_{toView}为外参矩阵对应的坐标系变换 \end{array}$
$M_{OpenGL}$ 与 $M_{OpenCV}$ 对应关系：
$\begin{array}{ll} M_{OpenGL}&=M_{reverse-y}M_{OpenCV}M_{reverse-z}\\ &=M_{reverse-y}M_{reverse-z}M_{OpenCV} \end{array}$

当然，也可以相机空间为OpenGL标准，裁剪空间为OpenCV标准，反之亦然。但这两者用的较少，具体感兴趣的可以看[9]

4.2 采用OpenCV坐标系变换

这种方式不使用OpenGL管线实现3D到2D的转换，只是用其进行渲染，一般步骤如下[10]：

将像素坐标转换为纹理坐标
将纹理坐标转换为相机坐标系下的三维点
使用OpenCV相机内参矩阵，将相机坐标系下的三维点投影到相机模型的二维图像平面上
将二维坐标重新映射回图像坐标系下的像素坐标
绘制纹理映射后的图像

4.3 进阶-针孔投影模型去畸变

先简要描述畸变模型的作用：

畸变模型主要用于描述相机成像过程中由于透镜等光学元件引起的畸变效应。这些畸变效应导致实际成像与理想成像之间存在差异。常见的畸变包括径向畸变和切向畸变。
径向畸变（Radial Distortion）：
桶形畸变（Barrel Distortion）：在图像边缘呈现出凸起的形状，导致离光轴较远的点在图像上显得更远。这是由于透镜对非中心位置的光线有更强的聚焦效应。
枕形畸变（Pincushion Distortion）：在图像边缘呈现凹陷的形状，导致离光轴较远的点在图像上显得更近。这是由于透镜对中心位置的光线有更强的聚焦效应。
切向畸变（Tangential Distortion）：
由于透镜与成像平面不平行，造成图像中的物体呈现出倾斜或歪斜的形状。

畸变模型通常加在图像坐标系下，表达式如下：
首先，考虑径向畸变有：
$x_d=x_n \cdot (1+k_1r^2+k_2r^4+k_3r^6)\\ y_d=y_n \cdot (1+k_1r^2+k_2r^4+k_3r^6)\\$ 其中， $r^2=x_n^2+y_n^2$ ， $k_1、k_2、k_3$ 是径向畸变系数。
接着，考虑切向畸变有：
$x_{dd}=x_d+(2p_1x_ny_n+p_2(r^2+2x_n^2))\\ y_{dd}=y_d+(p_1(r^2+2y_n^2)+2p_2x_ny_n)$ 其中， $p_1、p_2$ 是切向畸变系数。
如果采用OpenCV与OpenGL结合的第一种方式，只需在透视除法后对NDC的 $x_n、y_n$ 应用上述公式即可。
如果采用OpenCV与OpenGL结合的第二种方式，只需将第3步改为畸变相机模型即可。
参考[8]中的加入畸变平面的投影模型的示意图：
在这里插入图片描述
其中，Normalized Plane即 $x_n,y_n,1)$ 所在平面，Distortion Plane即 $x_{dd},y_{dd},1)$ 所在平面。