《临时笔记》一些计算机视觉的英语术语的纪录

最新推荐文章于 2023-08-28 11:36:52 发布

FesianXu

最新推荐文章于 2023-08-28 11:36:52 发布

阅读量1k

点赞数

分类专栏： Computer Vision 文章标签：计算机视觉术语学命名学笔记

本文链接：https://blog.csdn.net/LoseInVain/article/details/102739778

版权

Computer Vision 专栏收录该内容

18 篇文章 11 订阅

订阅专栏

$\nabla$ 联系方式：

e-mail: FesianXu@gmail.com

QQ: 973926198

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号：
qrcode

有些计算机视觉相关的英语文献上，有些术语在中文社区中比较少翻译，这里汇总下，作为笔记。

low-relief

典故是意大利语的basso rilievo，意思即是 ‘浅浮雕’ 之意，这里的relief有深度的意思，不过这个深度似乎指的是物体本身凸出的，或者凹陷的意思，是物体本身的属性，而不是我们理解的那种物体A离物体B之间的深度。此属于出现在了[2]中的8.2节，原文是：

We start in this section with the case of scenes whose relief is small compared with their overall depth relative to the cameras observing them, so perspective projection can be approximated by the simpler weak-perspective model of the imaging process.

这里指的relief正是要理解成为物体的属性。见[3]中的讨论，关于什么时候需要假设物体是low-belief的情况。

在这里插入图片描述

Fig 1. 硬币和浮雕属于可以用relief描述深度的物体。

homography matrix

homography我们看到这个词有homo-开头，就能猜到有“相似，相同”的意思，实际上，从词根而言，homography表示的是similar drawinig/projection的意思，也就是说是相似的图片。但是并不是简单的相似，homography翻译成中文是单应性，表示的是 在不同视角下，对于同一个平面的表达，如图Fig 2所示，对于同一个平面上的点 $(x,y,1)^{\mathrm{T}}$ ，在不同视角下的摄像机得到了图像image1和image2，对于这两个视角下的图，其对应的和平面上的 $P$ 点对应的点分别是 $P_1 = (x_1, y_1, 1)^{\mathrm{T}}, P_2 = (x_2, y_2, 1)^{\mathrm{T}}$ 。通过单应性矩阵，我们可以实现两个视角中的点的转换，如(注意，我们用的都是齐次坐标系)：

$\left[ \begin{matrix} x_1 \\ y_1 \\ 1 \end{matrix} \right] = \mathcal{H} \mathbf{X}_2 = \left[ \begin{matrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{matrix} \right] \left[ \begin{matrix} x_2 \\ y_2 \\ 1 \end{matrix} \right] \tag{1}$
其中单应性矩阵 $\mathcal{H} \in \mathbb{R}^{3 \times 3}$ 。
在这里插入图片描述

Fig 2. 对于同一个平面planar surface，不同的摄像机的观察得到image1, image2，其可以通过单应性矩阵进行转换。

通过单应性矩阵，我们能实现视角之间的转换。

Update 2019.12.3
以上的解释不够准确，在[4]中，作者Hartley给了homography的一个很好地定义（当然，这个定义和我之前说的并不矛盾，只是我的偏向于应用，作者给的偏向于原始定义）。
单应性(homography)，也被称之为投影变换(projective transformation)，或者共线性(collineation)或者投影性(projectivity)，这些术语都是同义的。

A projectivity is alse called a collineation(a helpful name), a projective transformation or a homography: the terms are synonymous.

至于共线性，这是单应性的最直接的体现，定义如下

对于投影空间¹ $\mathbb{P}^{2}$ ，其中有一个映射 $h$ 从自身映射到自身( $\mathbb{P}^2 \rightarrow \mathbb{P}^2$ )，当且仅当 $h(\mathbb{x_1}),h(\mathbb{x_2}),h(\mathbb{x_3})$ 共线时，使得空间中的三个点 $\mathbb{x}_1, \mathbb{x}_2, \mathbb{x}_3$ 也是共线。

定义很容易理解，可从Fig 2中简单看出，其中的所谓的映射 $h$ 也即是单应性矩阵 $\mathcal{H}_{3 \times 3}$ ，在变换前后，直线仍然是直线，这个就称之为共线性，也就是单应性，投影性等等。因为单次变换过程中能够保留共线性，那么即便在多次变换中（也就是我上面举得例子），共线性也可以得到保留，因此就能够通过单应性矩阵在不同视角中，对同一个平面上的视点进行变换迁移了。

disparity

disparity也就是视差，指的是两个不同的相机对于同一个3D点的平面投影的位置上的差别，如下图Fig 3所示。公式计算为：
$x_{left}-x_{right} \tag{2}$
在这里插入图片描述

Fig 3. 视差图。

Equivariance constraint 协变约束

协变约束 (Equivariance constraint) 在很多文献中都有所使用和描述[6,7,8]，而目前网络对此描述的资料却不是很多。协变约束经常在一些无监督或者自监督landmark提取任务中使用，其目的是通过引入一些已知的变形模型（比如TPS[9]），提高landmark提取的稳定性。准确来说，以[7]为例子，我们认为局部的landmark在局部变形中应该是稳定的，如Fig 4所示，意味着图像局部的变化，其landmark也会跟着一起变化。因此约束如式子(3)所示。
在这里插入图片描述

Fig 4. 嘴角和眼角的局部变形，其landmark也会跟着变化，称之为局部landmark的稳定性。

$\mathcal{L}_{\mathrm{eqv}} = \sum_{k=1}^{K} ||g(x_{k}^{\prime}, y_{k}^{\prime})-(x_{k}, y_{k})||^2_2 \tag{3}$
其中 $g(\cdot,\cdot) := \mathbb{R}^2 \rightarrow \mathbb{R}^2$ 为一种已知的图片像素坐标变换，其有 $\mathbf{I}^{\prime}(u,v)=\mathbf{I}(g(u,v))$ ，并且我们有 $\mathbb{l}^{\prime} = [x_{1}^{\prime}, y_{1}^{\prime}, \cdots,x_{K}^{\prime}, y_{K}^{\prime}]^{\mathrm{T}} = \mathrm{landmark}(\mathbf{I}^{\prime})$ 。也就是说， $g(\cdot,\cdot)$ 使得图像发生了某些已知的变形，理论上而言，landmark也会跟着一起变化，称之为协变，因此我们有约束表示(3)。这里的 $g(\cdot,\cdot)$ 通常可用仿射变换或者薄板样条插值[9]表示。

Reference

[1]. https://en.wikipedia.org/wiki/Relief
[2]. Forsyth, David A, Ponce, Jean. Computer Vision A Modern Approach second edition[M]// Computer Vision: A Modern Approach. 2017.
[3]. https://blog.csdn.net/LoseInVain/article/details/102869987
[4]. Hartley R, Zisserman A. Multiple view geometry in computer vision[M]. Cambridge university press, 2003. Page 32 Definition 2.9
[5]. https://blog.csdn.net/LoseInVain/article/details/102756630
[6]. Thewlis, J., Bilen, H., & Vedaldi, A. (2017). Unsupervised learning of object landmarks by factorized spatial embeddings. In Proceedings of the IEEE international conference on computer vision (pp. 5916-5925).
[7]. Zhang, Y., Guo, Y., Jin, Y., Luo, Y., He, Z., & Lee, H. (2018). Unsupervised discovery of object landmarks as structural representations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2694-2703).
[8]. Siarohin, A., Lathuilière, S., Tulyakov, S., Ricci, E., & Sebe, N. (2019). First order motion model for image animation. In Advances in Neural Information Processing Systems (pp. 7137-7147).
[9]. https://blog.csdn.net/LoseInVain/article/details/108483736