CVPR 2021 Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition

最新推荐文章于 2024-04-18 09:56:32 发布

smile909

最新推荐文章于 2024-04-18 09:56:32 发布

阅读量2k

点赞数 2

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115257184

版权

论文提出了一种名为Patch-NetVLAD的视觉场景识别系统，该系统利用局部-全局特征进行空间和外观一致性匹配，以实现条件和视点不变性。通过多尺度融合不同大小的patch特征，提高识别性能，同时减少计算成本。实验证明，Patch-NetVLAD在多个具有挑战性的数据集上取得了最佳结果，并且在速度和效率上优于现有方法。

摘要由CSDN通过智能技术生成

在这里插入图片描述

视觉场景识别对机器人和自主系统来说是一项具有挑战性的任务，它必须在一个不断变化的世界中解决因外观、照明以及视点变化所产生的问题。

本论文提出了一种新的条件和视点不变的视觉场景识别系统（Patch-NetVLAD）（如下图所示），它从每幅图像的特征空间的一组小块中提取局部-全局特征，通过局部-全局特征的穷举匹配获得空间得分，以获得两幅图像之间的相似度，从而测量这些图像之间的空间和外观一致性。局部-全局特征是在特征空间中使用一种vpr优化的聚合技术(论文采用NetVLAD)对密集采样的局部小块提取得到，产生一对图像之间的相似性得分，测量这些图像之间的空间和外观一致性。

首先采用原始NetVLAD特征，检索给定查询图像的top-k(在实验中使用k=100）最有可能匹配的匹配项。然后使用NetVLAD中VLAD层的替代方法计算出一种新的patch特征以用于局部匹配，以重新排序初始匹配列表，并改进最终的图像检索。这种组合方法在保证最终图像检索阶段的召回性能的基础上，最大限度地减少了交叉匹配patch特征所带来的额外的总体计算成本。通过引入一个完整的特征空间，推导出一个融合多个patch大小的多尺度方法，用来生成并组合这些不同大小的混合特征，以提高单一尺度方法的性能。与现有局部关键特征的固定空间邻域机制不同（NetVLAD仅将整个特征空间聚合为一个全局特征），该方法将特征空间网格上定义的深度学习的局部特征进行聚合和匹配，并通过一个完整的特征空间引入了一种具有互补尺度(即patch大小)的多尺度特征融合，并表明融合后的特征对条件(季节、结构和光照)和视点(平移和旋转)变化都具有高