yamada算法_CVPR 2020 | SCOT: 基于最优传输理论的图像语义匹配

深度学习近几年在图像分类、分割、物体检测等领域取得了很大的进展,但是在关键点匹配(语义匹配)领域最近一段时间才逐渐引起大家的关注。在深度学习之前,许多传统的关键点匹配方法,比如SIFT(尺度不变特征转换)、SURF(加速稳健特征)、FAST等一直是计算机视觉领域研究的热点问题。这些手工特征具有很好的鲁棒性和通用性,但是对于外观特征变化较大的物体效果则比较差,而深度特征则可以提供语义层面的信息用于匹配。

问题

本文介绍的算法是基于深度特征和最优传输理论的语义匹配算法。图像语义匹配,是对包含相同物体的两张图片的关键点进行匹配。如图一,当前方法(例如HPF [1])存在两个问题:(a)源图的多个关键点匹配到目标图的同一个点,(b)源图的前景匹配到目标图的背景。为了解决这两个问题,我们提出了基于最优传输理论的匹配算法解决(a),并且使用CAM(Class Activation Map)来解决(b)。图一. 当前方法(HPF [1])存在的两个问题:(a) 多对一匹配,(b)前景背景匹配。

背景知识

根据最优传输理论,我们有两组点

,它们对应的分布是

表示的是

里面元素的重要程度。针对匹配问题,我们首先要计算一个损失矩阵(Cost Matrix),代表的是从

匹配需要的代价:

。最优传输问题定义如下:

图二. 最优传输理论示意图

直观来看,得到的

是使得

整体匹配损失最小的最优匹配方案。

算法流程介绍图3. 算法流程图

Step1. 特征图提取:源图

,目标图

,关联图计算

Step2. 从语义匹配到最优传输问题:对于潜在的匹配

,我们最大化总体的关联

,得到的

是全局最优的匹配矩阵。优化问题如下:

Step3. 约束条件。针对上面的优化问题,我们加入限制条件:使得

的每一行、每一列求和是固定数值,这样解决了源图的多个关键点匹配到目标图的同一个关键点的问题:

对于

,我们对CAM(Class Activation Map)做阈值化和归一化处理,使得前景点的权重大于背景点,解决了前景关键点匹配到背景的问题,如图4。图4

实验结果

论文的实验在四个数据集上进行:Spair-71k(大规模),TSS、PF-PASCAL和PF-WILLOW(标准benchmark)。结果如下:图5. 实验结果

更多数值结果以及可视化,可以参考我们的论文[2]。

总结

图像语义匹配最近逐渐引起了大家的关注,我们将图像语义匹配问题转换成最优传输的问题,解决了多对一匹配以及背景匹配的问题。

更多的技术细节可以参考:

代码链接:csyanbin/SCOT​github.com

参考文献

[1] Juhong Min, Jongmin Lee, Jean Ponce, and Minsu Cho. Hyperpixel flow: Semantic correspondence with multi-layer neural features. In ICCV, 2019.

[2] Yanbin Liu, Linchao Zhu, Makoto Yamada, and Yi Yang. Semantic Correspondence as an Optimal Transport Problem. InCVPR2020.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值