【论文阅读】Modeling the world from internet photo collections

最新推荐文章于 2024-10-04 22:28:22 发布

AD狗东

最新推荐文章于 2024-10-04 22:28:22 发布

阅读量1.1k

点赞数 5

文章标签：计算机视觉

本文链接：https://blog.csdn.net/adam_dogg/article/details/118462643

版权

Modeling the world from internet photo collections论文阅读

1、摘要

互联网上有大量的图片，构成了最大和最多样的照片集合。计算机视觉研究者们该如何利用这些图片进行研究呢?本文从3维场景建模和可视化的角度探索这个问题。我们展示了一个structure-from-motion and image-based rendering 的算法，这个算法可以对由关键词搜索得到的图片进行操作。我们叫这个方法为 Photo Tourism，此方法已经促进了许多世界著名遗址景点的重构工作。这篇文章展示的算法和结果是对拥有良好照片（来自互联网）的世界遗址、城市、风景等进行三维场景重建的第一步。最后，我们还讨论了研究团队遇到的困难和关键开放性问题。

2、介绍

网络图像由于其无序、未校准、变化多、亮度不受控制、分辨率和质量等问题，而很难被传统计算机视觉所应用。将这些图片应用在计算机视觉领域的一个主要挑战是：两张图片对应3D坐标的匹配问题。

本文的行文思路：首先回顾最新技术，然后介绍解决此问题的一些步骤，以及我们称之为Photo Tourism的可视化前端。然后，我们为本领域提出了一组开放的研究问题，包括为超大图像数据集创建更有效的对应和重建技术。本文的研究是在2006年文章的基础上发展而来的，发展了新的算法，更多详细内容详见：http://phototour.cs.washington.edu.

3、先前技术（历史介绍）

特征匹配
SFM
基于图像的重建
基于图像的渲染
图像浏览、图像标签的标注和传递

4、重建过程

4.1 关键点的检测和匹配

特征点检测：用SIFT提取每张图片的特征点，SIFT对每张图中每个特征点产生一个128维特征向量。SIFT提取特征的原理见SIFT原理

图中每个 $f e a t u r e$ 都是128维的向量
特征点的匹配：目的是需要让图片间，对应的特征点之间赋予权值。举例：如图，对imge₁、imge₂、imge₃、imge₄中，玩偶眼睛部位对应特征点互相建立权值，而不与其他部位相匹配。
为了达到这个效果，需衡量特征点之间距离，由上一步sift特征提取过程，每个特征点由一个128维的向量描述，所以特征点之间的距离问题就是高维向量间的距离问题
kd-tree可以将高维向量按二叉树分类，将不同大小的特征点分类至kd-tree上不同的叶子节点
衡量匹配点间的距离: 将图片 $image_i$ 中每个特征点 $feature_{i,m}$ ，用ANN（近似最近邻搜索算法）搜索 $image_j$ 的kd树中与 $feature_{i,m}$ 最近的特征点，在不多于200次搜索中确定出2个最近邻点;
如果两个最近邻 $feature_{j,p}$ $feature_{j,q}$ ，与 $feature_{i,m}$ 距离分别为d₁,d₂。且 $\frac{d~1~}{d~2~}$ <0.6，则接受 $feature_{j,p}$ 认为 $feature_{i,m}$ 与其匹配
为了保证图像两两之间的特征点匹配是1对1的，将 $image_i$ 中所有特征点都匹配完最近邻后，只能保证两图特征点之间是1对1 或 n对1，若是n对1，则将相关的n对匹配删除
由上面步骤，可以得出