【CVPR2023新作】多视角几何中解决模型灵活性和精度之间的矛盾

NeRFAI

已于 2023-08-16 07:42:35 修改

阅读量77

点赞数

分类专栏： CVPR2023论文解读文章标签：人工智能算法计算机视觉机器学习深度学习

于 2023-08-13 16:45:14 首次发布

本文链接：https://blog.csdn.net/NeRFAI/article/details/132261233

版权

4 篇文章 0 订阅

订阅专栏

Title: A Light Touch Approach to Teaching Transformers Multi-View Geometry
Affiliation: Visual Geometry Group, University of Oxford (牛津大学视觉几何组)
Authors: Yash Bhalgat, João F. Henriques, Andrew Zisserman
Keywords: Transformers, multi-view geometry, epipolar lines, object retrieval
Summary:
- (1): 本文研究背景为解决基于多视角几何的任务中遇到的模型灵活性和精度之间的矛盾。对于包含大量三维图形和视角变化的物体检索任务而言，现有的方法难以实现准确的视角不变性，本文提出了针对视角不变性的新方法。
- (2): 以物体检索任务为例，现有的方法难以应对多视角几何中的问题。因此，本文提出在训练过程中使用外极线指导Transformer的多视角学习，并指引其在不需要视角灵活性的情况下进行匹配。相比之前的方法，本文的做法无需在测试过程中提供相机位置信息。本文提出的新方法能够更好地实现视角不变性。
- (3): 本文的研究方法是在训练过程中引入外极线来指导Transformer的学习，并通过惩罚在外极线之外的注意力值和鼓励在这些线上更高的注意力值来实现多视角学习。
- (4): 本文通过实验得出，该方法在物体检索方面的表现优于现有方法，并且无须在测试过程中提供位置信息，因此能够更好地实现视角不变性。
Methods:

(1): 本文在针对基于多视角几何的物体检索任务时，提出了一种新的方法。首先，使用两个CNN网络来提取两个视角下的物体特征，并对两个特征进行拼接。接着，采用Transformer对这个拼接特征进行多视角学习，并在训练期间通过引入外极线来实现视角不变性。最后，通过处理得到的注意力值，来计算两个视角下物体间的相似度。
(2): 实验方面，本文使用ShapeNet数据集作为训练集和测试集，选取包含10个类别的物体模型，每个模型随机生成40个视角。通过多个对比实验，量化得到本文提出的方法相比于其他方法，在物体检索任务的效果上得到了显著提升。
(3): 在实现上，本文提出的方法不需要在测试期间提供相机位置信息，而且能够对物体的姿态和尺寸进行不同比例的匹配，具备很好的可扩展性。同时，本文提供的新方法还可以用于其他基于多视角几何的任务中，具有广泛的应用前景。

(1): 本篇文章的意义在于解决基于多视角几何的任务中关于模型灵活性和精度之间的矛盾，提出一种新的、无需在测试时提供相机位置信息的多视角学习方法。文章所提出的方法可应用于其他基于多视角几何的任务中。
(2): 创新点：文章的创新点在于引入外极线来指导 Transformer 的学习，实现多视角学习、视角不变性和物体检索任务的表现提升。性能：多次对比实验得出，文章提出的方法相比其他方法在物体检索任务上表现得到显著提升。工作量：由于不需要在测试时提供相机位置信息，文章提出的方法具备很好的可扩展性，且无需设计特定的网络结构。

关注