15.立体几何——立体，基本概念，随机点立体图，立体估计深度_2

最新推荐文章于 2024-08-11 19:57:28 发布

Tom Boom

最新推荐文章于 2024-08-11 19:57:28 发布

阅读量1.8k

点赞数

分类专栏：机器视觉技术文章标签：机器视觉

机器视觉技术专栏收录该内容

80 篇文章

订阅专栏

立体

从一些队列，阴影，纹理，焦点等估计形状的一般方法。很长一段时间，这对计算机视觉来说是一个大问题，它被称为X形状。在70年代末，80年代早期很受欢迎，我知道这对于大多数人来说都是史前的历史。但基本的想法是从图像和关于世界本质的一些假设，就像那些房子都是一样的。因此，他们可能会越走越远。大脑可以计算深度，我们也想建立能够做到这一点的机器。但是我们和很多其他生物都有两只眼睛，因此称为立体。在立体中，关键是一只眼睛的图像与另一只眼睛的图像略有不同。

在这里，我看到梅根鼻子的右侧，我在这里，我看到了梅根鼻子的直线部分。梅根的，梅根的鼻子挺直的。我的歪了。无论如何，所以你可以认为立体是从两个不同视图之间的运动中恢复形状。而这个想法是推断出3D形状。在谈到如何做到这一点之前，人们一直在研究人类大脑长期以来的这种能力。事实上，其中一件很酷的事情就是立体摄影（stereo photography）。因此，查尔斯惠斯通在19世纪早期发明了第一个立体观察器（如图），all right。

在哪里拍摄两张照片，然后将它们穿过这个镜头，这样每只眼睛看到的图像略有不同。 all right。所以你在这里得到的就是这个木制的东西可以防止左眼的图像被右边看到（如图）。同样，左眼看到右眼的图像。而且这里的镜头基本上可以将眼睛直接对准在他们面前的图像上。人们对此很着迷。

所以这是亚伯拉罕·林肯拍摄的3D照片。所以，我们从1838年到1860年，只有20多年，你已经在做美国总统的3D肖像了。因此，对于人们而言，它变得非常引人注目，因为你采取这种扁平的东西，突然之间，你会看到深度。

这是托马斯爱迪生的一对立体，最具代表性的是他这个时代的着名发明家，它可能是真的。您可以通过立体查看器查看它，

或者您可以做一些非常酷的事情，您可以制作所谓的立体照片。立体照片放下了红色和蓝色的图像。想象一下，如果你用蓝色滤镜看一张白纸，all right，一切都是蓝色的。它把所有的光都扔掉除了蓝色和白色，白色的光里面有蓝色。如果你在上面放蓝色的东西，它不会改变任何东西。所以基本上，它变得不可见。

你把红色滤镜放在里面，蓝色看起来很暗。同样，你把红色图像变成红色过滤器不可见。因此，立体照片在廉价的三维电影中流行了一段时间。有一张这些立体观众的照片，这是一张很棒的照片，因为它是一个儿童立体图像，可以看到图书馆中的立体对，这是在20世纪20年代早期。要意识到的是它给了你一种现实感。所以人们习惯用它来体验远方的地方和他们看不到的东西。否则，当他们只是看一张图像时，他们就会得到一个现实。

例如，这是印度这座桥的照片。所以突然之间，你会觉得你在印度，这不仅仅是看静态画面。

当我长大的时候，很多人都有这些View Master光盘（如图1）。 okay？你可以将光盘放入小观察器中，然后将它向下滑动，你会看到两种不同的东西。而且，你知道，你有教科书（如图2）。因此，当我还是个孩子的时候，他们降落在月球上，他们在月球上拍摄了男人的立体照片，这真的很酷。谈谈你不能去的地方。或者更重要的是，你可以得到蜘蛛侠（如图3），这真的很棒。当然，如果我们有互联网，我们就知道你可以订购立体声色情片（如图），但我们当时并不知道。现在，伙计们，你们，你们得到3D电视（如图5）。所以对你而言，这根本不是新鲜事物，但这基本上是确保每只眼睛都能看到两个不同图像的原理。

1 2 3

4 5

基本概念

所以这是基本的想法，好吗？两个略有不同的图像（如图1，2）。这是两个立体动画，我们只是交替显示左图和右图。如果你只是看看这里的围栏帖子（如图3），你可以看到这些图片排成一排，使得围栏的帖子在两张图片的同一点上正好相同。而且你可以看到前面的东西似乎是这样的，后面的东西就这样然后又回来了（如图4）。all right。

或者你可以切换它们，但是这个想法是你所面临的东西在一个方向上移动，而它背后的东西又回来了。我们实际上会看到，当我们谈论排序约束时，从现在开始有两节课。这是一个很酷的人，有人潜入游泳池。你可以看到他调整了图像，因此在游泳者的深度处，两个图像正好排成一列。所以气泡，飞溅向一个方向移动（如图1），我喜欢水池底部的阴影向另一个方向移动（如图2）。所以基本的观点是，从他们如何移动的两个不同视角，你可以了解他们的深度。

随机点立体图

让我们来谈谈立体视觉。人类如何做到这一点？在课程的最后，我们将谈论人类系统的生理学。但今天我只想谈谈计算。如果你仔细想想，你可以想象立体是以不同的方式完成的。一种方法可能是你在一个图像中找到一些区域，然后在另一个图像中找到这些区域，然后你的大脑对它们进行比较，看看它们是如何相对于彼此移动的，然后以某种方式找到，找出深度。另一种可能性是，你可能只是处理非常低级别的图像进行某种对照并获得深度。

所以先做融合，然后再做识别。因此，如果这里一个问题，你是否进行单眼（monocular）识别然后融合，或者融合图像然后做双目镜像，那么融合图像就会被识别出来。早在60年代，一位名叫Bela Julesz的心理物理学家就想看看这个问题。因此，为了验证这一点，他制作了一对合成图像（synthetic images），这些图像是通过在白色物体上喷上黑点得到的。 all right？

所以这里有一个概念性的描述来自Forsyth和Ponce的书。在某种程度上，想象那些是白色的，你撒上胡椒，或者你在整个事物上撒上黑点（如图1）。你从这边拿了一张照片，从那边拿了另一张照片（如图2）。

1 2

你得到的是这两张图片（如图1）。 okay？现在，当你看到这两个图像时，你看不到任何东西。但如果我用立体向你展示它们，这对我来说很难在这里做，你实际上会看到这个块被提升了。 all right。所以我们可以做的就是我们可以活跃那些随机点立体图的动画，就像我们给游泳者动画一样。我没有这个的动画，但我确实有这方面的动画（如图2），如果你看了一会儿我希望你会看到一条鲨鱼。所以每个人都看到了鲨鱼，okay? 所以这就是了，头脑里面突出了。然后它弯曲，然后尾巴再次伸出。所以你会注意到，注意我只是画了那个尾巴（如图4）。okay。但当然尾巴不是任何单个的图片。它只是在理解它们之间的区别。现在这实际上是从所谓的自动立体图网站（autostereogram website）完成的。你可以去看看。有一些方法可以制作这些，如果你只是，你可以使用相同的图片，穿过你的眼睛，或者以不同的方式盯着它们，你会在两只眼睛中得到不同的图像。但我认为你可以从这两个图像中看到深度。

1 2

有趣的是，如果我将一对一的眼睛和一对一的眼睛呈现在一起，你会看到那种深度。因此，Ullage的问题的答案是你是先处理图像，然后将它们排成一行来制作立体。或者你首先排列一些小的局部像素区域来做立体，很明显你先做了。你没有，你先做了立体。您不必拥有任何特定对象或区域。一种干净的方式说，人类双目融合，将两者融合在一起，并不是基于匹配的大规模结构。或者，图像的任何单个过程实际上都是基于直接融合两个图像的低级过程。

立体估计深度

那么现在，让我们考虑立体的几何学并进入数学。基本的想法是这样的（如图1）。如果我有两个摄像头，记住，摄像头是由他们的光学中心定义的（如图2）。 all right？他们都在看一些场景点（scene point）（如图3），如果我能弄清楚两个摄像机中哪两个点是同一点（如图3）。而且，如果我能分辨出哪个方向，如果我知道摄像机指向哪个方向，那么我就能算出那个点的深度（如图4）。

因此，为了估计立体之间的深度，记住两个视图之间的形状，我们必须考虑两件事。首先是有关相机姿势的信息，有时也称为校准（calibration）。相机如何相对于彼此在空间中定向。第二个是图像点对应，即哪个点对应于哪个。所以在这里你看到两个图像中的红点（如图1），左边和右边都对应于那个前角。我们要做的是我们要交换那个顺序。我们将首先谈谈进行图像对齐（image correspondence），因为这就是你要为你的问题集做的事情，而这就是立体匹配之间的基础。然后我们保存校准以供日后使用，因为校准也用于我们将要对相机进行的所有其他类型的几何处理。