【CVPR2024】CricaVPR

【CVPR2024】CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition

这个论文提出了一种具有跨图像相关性的鲁棒全局表示方法用于视觉位置识别(VPR,Visual Place Recognition )任务,命名为 CricaVPR。主要有两个创新点:

  • 使用自注意力机制来关联 batch 中多幅具有不同条件或视角的图像
  • 引入了一种多尺度卷积增强策略,它通过融合多尺度局部信息来改进预训练的视觉基础模型

第二个创新点: multi-scale convolution-enhanced adaptation 比较容易理解,作者使用多尺度卷积来微调DINO,如下图所示,这里不过多介绍。
在这里插入图片描述
论文技术框架如下图所示,主要的跨尺度的图像编码器。需要注意的是,该方法是在关联一个 batch 所有图像第i个区域的特征,而不是单个图像的所有区域特征。可以这么理解,以前的 attention 是考虑 token 和 token 之间的相似性,这里作者考虑的是 图像与图像之间的关联。图里可能体现的不是特别清楚,得阅读作者的源代码了。

在这里插入图片描述实验部分可以参考作者论文,这里不过多介绍。

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值