yamada算法_CVPR 2020 | SCOT: 基于最优传输理论的图像语义匹配

最新推荐文章于 2023-05-09 22:07:33 发布

weixin_39877581

最新推荐文章于 2023-05-09 22:07:33 发布

阅读量331

点赞数

文章标签： yamada算法

本文链接：https://blog.csdn.net/weixin_39877581/article/details/111927192

版权

深度学习近几年在图像分类、分割、物体检测等领域取得了很大的进展，但是在关键点匹配(语义匹配)领域最近一段时间才逐渐引起大家的关注。在深度学习之前，许多传统的关键点匹配方法，比如SIFT(尺度不变特征转换)、SURF(加速稳健特征)、FAST等一直是计算机视觉领域研究的热点问题。这些手工特征具有很好的鲁棒性和通用性，但是对于外观特征变化较大的物体效果则比较差，而深度特征则可以提供语义层面的信息用于匹配。

问题

本文介绍的算法是基于深度特征和最优传输理论的语义匹配算法。图像语义匹配，是对包含相同物体的两张图片的关键点进行匹配。如图一，当前方法(例如HPF [1])存在两个问题：(a)源图的多个关键点匹配到目标图的同一个点，(b)源图的前景匹配到目标图的背景。为了解决这两个问题，我们提出了基于最优传输理论的匹配算法解决(a)，并且使用CAM(Class Activation Map)来解决(b)。图一. 当前方法(HPF [1])存在的两个问题：(a) 多对一匹配，(b)前景背景匹配。

背景知识

根据最优传输理论，我们有两组点

，它们对应的分布是

和

表示的是

里面元素的重要程度。针对匹配问题，我们首先要计算一个损失矩阵(Cost Matrix)，代表的是从

到

匹配需要的代价：

。最优传输问题定义如下：

图二. 最优传输理论示意图

直观来看，得到的

是使得

和

整体匹配损失最小的最优匹配方案。

算法流程介绍图3. 算法流程图

Step1. 特征图提取：源图

，目标图

，关联图计算

Step2. 从语义匹配到最优传输问题：对于潜在的匹配

，我们最大化总体的关联

，得到的

是全局最优的匹配矩阵。优化问题如下：

Step3. 约束条件。针对上面的优化问题，我们加入限制条件：使得

的每一行、每一列求和是固定数值，这样解决了源图的多个关键点匹配到目标图的同一个关键点的问题：

对于

，我们对CAM(Class Activation Map)做阈值化和归一化处理，使得前景点的权重大于背景点，解决了前景关键点匹配到背景的问题，如图4。图4

实验结果

论文的实验在四个数据集上进行：Spair-71k(大规模)，TSS、PF-PASCAL和PF-WILLOW(标准benchmark)。结果如下：图5. 实验结果

更多数值结果以及可视化，可以参考我们的论文[2]。

总结

图像语义匹配最近逐渐引起了大家的关注，我们将图像语义匹配问题转换成最优传输的问题，解决了多对一匹配以及背景匹配的问题。

更多的技术细节可以参考：

代码链接:csyanbin/SCOTgithub.com

参考文献

[1] Juhong Min, Jongmin Lee, Jean Ponce, and Minsu Cho. Hyperpixel flow: Semantic correspondence with multi-layer neural features. In ICCV, 2019.

[2] Yanbin Liu, Linchao Zhu, Makoto Yamada, and Yi Yang. Semantic Correspondence as an Optimal Transport Problem. InCVPR2020.

weixin_39877581

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫