PaperNotes(1)-Modeling the World from Internet Photo Collections

小陈同学-陈百万

已于 2022-03-14 10:13:19 修改

阅读量1.4k

点赞数 3

分类专栏： PaperNotes 文章标签：计算机视觉人工智能算法

于 2019-05-14 14:50:04 首次发布

本文链接：https://blog.csdn.net/sinat_40624829/article/details/89857217

版权

PaperNotes 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

如有需要，本人整理的PPT在个人中心中可以下载。

Abstract

互联网上有大量的图片，构成了最大和最多样的照片集合。计算机视觉研究者们该如何利用这些图片进行研究呢?本文从3维场景建模和可视化的角度探索这个问题。我们展示了一个structure-from-motion and image-based rendering 的算法，这个算法可以对由关键词搜索得到的图片进行操作。我们叫这个方法为** Photo Tourism**，此方法已经促进了许多世界著名遗址景点的重构工作。这篇文章展示的算法和结果是对拥有良好照片（来自互联网）的世界遗址、城市、风景等进行三维场景重建的第一步。最后，我们还讨论了研究团队遇到的困难和关键开放性问题。

Introduction

世界上大部分的地点的图片在网上都能被找到，而且角度时间齐全，例如谷歌地图的街景级别的城市图像。

网络图像为世界上的地点建模（ shape modeling research）提供了丰富的资料，由于其丰富的视角和多样性，使得设计的算法具有鲁棒性，能够适应与多变的环境。

网络图像由于其无序、未校准、变化多、亮度不受控制、分辨率和质量等问题，而很难被传统计算机视觉所应用。将这些图片应用在计算机视觉领域的一个主要挑战是：两张图片对应3D坐标的匹配问题。

本文的行文思路：首先回顾最新技术，然后介绍解决此问题的一些第一步，以及我们称之为Photo Tourism的可视化前端。然后，我们为本领域提出了一组开放的研究问题，包括为超大图像数据集创建更有效的对应和重建技术。本文的研究是在2006年文章的基础上发展而来的，发展了新的算法，更多详细内容详见：,http://phototour.cs.washington.edu.

2 Previous Work

过去20年，3D计算机视觉算法在性能上取得飞速发展。这些算法涵括：特征对应、稀疏重建、基于图像建模、基于图像绘制技术、图像搜索技术。以下小节分别介绍各个算法的内容。

2.1特征匹配

介绍了近20年的特征匹配技术，最后说明本文采用SIFT特征（ Scale Invariant Feature Transform (SIFT)，尺度不变特征变换）

2.2 稀疏重建

**稀疏重建技术：**从匹配特征集合中同时重构三维场景和估计相机位置姿态。近20年来，有大量的工作，本文的工作与前人的工作有相似之处，但是有相比于前人有更显著的贡献：将SfM技术应用与来自网络的真实世界图片。在应用SfM方法时，我们做了4点改变：(1)用姿态估计来初始化相机参数；(2)启发式的规则选择两幅初始化图像；(3)检验每一重构点的优良性后，在决定是否将其加入重构场景；(4)从图像的EXIF信息中计算相机焦距。

2.3 基于图像建模

近些年来，诸如稀疏重建、基于模型重建等计算机视觉技术在计算机图形领域获得了巨大的吸引力，这些方法又被称为基于图像的建模方法。有很多人已经做过许多优秀的工作了，在这个方面，相比与前人，我们工作强调的是开创图片与三维模型之间的光滑转换，而不是交互的可视化三维模型；因为这个工作前人是做过的。

2.4 基于图像的渲染

Image-Based Rendering 领域开创性的工作是 Aspen MovieMap project (Lippman 1980)。该项目从移动的车上获取了 Aspen Colorado 城中的成千上万张图片，重构了该地城区图的精确三维场景地图，并且，提供了交互式的用户接口。本文工作与该工程类似，但是，花费的人力时间少。且重建建筑物的表面不如IBR相关工作的逼真，但是，这并不是一个问题，因为，我们的初始目标就不是重构的逼真度。因此，我们避开了IBR领域的一些挑战性问题：完整表面模型重建、光照问题、像素精确插值问题。这使得我们能够不受IBM与IBR方法的限制，更随心所欲地操作输入图片。

2.5 图像浏览，检索和注释

最近，使用位置信息来浏览图片的方法越来越流行。现有的系统，都是通过GPS或者手手动的方式来设置位置信息。我们的方法利用现有的图片数据库和网上搜索得到的图片，我们还利用稀疏三维几何和图像特征匹配来构成导航信息。
我们使用的检索技术是： Video Google ，但是为原来技术的三维扩展版本。
我们注释技术能够使的特定目标或者区域的技术在不同图片间移。可自己开发一套注释技术；也可以从Flickr中直接导入现有的注释；还可以进行注释迁移。
2002年有一个传照片返回拍照位置的系统，我们的系统能够完成同样的功能，而且，还附加了：可视化，导航，注释等功能。

3 Overview概述

（此部分为文章脉络概述）
本文主要目标：Our objective is to geometrically register large photo collections from the Internet and other sources。
主要困难：网络图形对于建模的不友好性：质量问题。
主要解决方法：特征匹配和稀疏重建
第四部分：详细叙述本文方法
第五部分：如何得到一个吸引人的表面
第六部分：photo explorer接口，用于用户输入图片后三维重建场景
第七部分：标注在多张图片中转移的技术
第八部分：11个场景的建模效果展示
第九部分：研究团队遇到的挑战性问题。

4 Reconstructing Cameras and Sparse Geometry（相机标定与稀疏重建）

稀疏重建需要相机的内参数，位置，姿态，或者绝对坐标等信息。但是，网络图片不具备这些信息，焦距可以通过EXIF信息读取计算为初值后，进行优化求解。其他参数需要经过相机标定技术进行计算。
**计算过程：**每张图片特征点标注->图片之间的特征点匹配->迭代SFM过程优化相机参数。最后，我们使用交互式技术，将恢复的相机信息存储在构造的地图上空。

4.1Keypoint Detection and Matching（关键点检测和匹配）

本文使用SIFT特征来检测和表示每一张图片中的特征点。因为SIFT良好的尺度不变性，和给每一个特征点赋予的局部描述子。一张图片可能会包含几千个SIFT特征点。
每对（I,J）图片中的特征点匹配：从J的描述子中构造kd-tree。不是通过设置最近邻的距离阈值选匹配点，而是通过I中某一特征点在J中的两个最近邻的距离比值确定 $\frac{d_1}{d_2}<0.6$ .确定该特征点的匹配点。（如果两张图片中的特征出现一对多的情况，则去除这些匹配，因为其中必有一些是错误的）
特征点匹配后，利用RANSAC算法计算两视图几何中的基本矩阵。在每次迭代中，我们利用八点法计算基本矩阵的候选集合。RANSAC outlier threshold= 0.6% of the maximum image dimension。RANSAC算法返回的F矩阵的8个参数由 Levenberg-Marquardt algorithm进行精细化优化。通过上述设置的阈值，移除不符合条件的匹配点。如果总体匹配点数少于20个，则这两张图片的匹配将被全部移除。
找到每张图片的几何一致性匹配后，将多张图片中的特征点连接构成一个图片轨道，每条轨道包含同一张图上的两个关键点的话，就将该关键点剔除。一条轨道至少要包含两张图片上的关键点。
连接多张图片之间的匹配点，构成图像连通轨，由图像连通轨道构成图像连通集合
在这里插入图片描述

4.2 Structure from Motion（稀疏重建）

在这里插入图片描述

4.3 Geo-Registration

在这里插入图片描述

4.4 Scene Representation

在这里插入图片描述

5 Photo Explorer Rendering

5.1 User Interface Layout

在这里插入图片描述

5.2 Rendering the Scene

在这里插入图片描述

5.3 Transitions between Photographs

在这里插入图片描述

6 Photo Explorer Navigation

在这里插入图片描述

7 Enhancing Scenes

在这里插入图片描述

8 Results

在这里插入图片描述

9 Research Challenges

在这里插入图片描述

百度文库的全文翻译现场：https://wenku.baidu.com/view/0736a232866fb84ae45c8d6d.html

小陈同学-陈百万

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
PaperNotes(1)-Modeling the World from Internet Photo Collections

从网络图片集对世界进行建模AbstractAbstract互联网上有大量的图片，构成了最大和最多样的照片集合。计算机视觉研究者们该如何利用这些图片进行研究呢?本文从3维场景建模和可视化的角度探索这个问题。我们展示了一个structure-from-motion and image-based rendering 的算法，这个算法可以对由关键词搜索得到的图片进行操作。我们叫这个方法为** Pho...
复制链接

扫一扫