深度学习近几年在图像分类、分割、物体检测等领域取得了很大的进展,但是在关键点匹配(语义匹配)领域最近一段时间才逐渐引起大家的关注。在深度学习之前,许多传统的关键点匹配方法,比如SIFT(尺度不变特征转换)、SURF(加速稳健特征)、FAST等一直是计算机视觉领域研究的热点问题。这些手工特征具有很好的鲁棒性和通用性,但是对于外观特征变化较大的物体效果则比较差,而深度特征则可以提供语义层面的信息用于匹配。
问题
本文介绍的算法是基于深度特征和最优传输理论的语义匹配算法。图像语义匹配,是对包含相同物体的两张图片的关键点进行匹配。如图一,当前方法(例如HPF [1])存在两个问题:(a)源图的多个关键点匹配到目标图的同一个点,(b)源图的前景匹配到目标图的背景。为了解决这两个问题,我们提出了基于最优传输理论的匹配算法解决(a),并且使用CAM(Class Activation Map)来解决(b)。图一. 当前方法(HPF [1])存在的两个问题:(a) 多对一匹配,(b)前景背景匹配。
背景知识
根据最优传输理论,我们有两组点
,它们对应的分布是
和
表示的是
里面元素的重要程度。针对匹配问题,我们首先要计算一个损失矩阵(Cost Matrix),代表的是从
到
匹配需要的代价:
。最优传输问题定义如下:
图二. 最优传输理论示意图
直观来看,得到的
是使得
和
整体匹配损失最小的最优匹配方案。
算法流程介绍图3. 算法流程图
Step1. 特征图提取:源图
,目标图
,关联图计算
Step2. 从语义匹配到最优传输问题:对于潜在的匹配
,我们最大化总体的关联
,得到的
是全局最优的匹配矩阵。优化问题如下:
Step3. 约束条件。针对上面的优化问题,我们加入限制条件:使得
的每一行、每一列求和是固定数值,这样解决了源图的多个关键点匹配到目标图的同一个关键点的问题:
对于
,我们对CAM(Class Activation Map)做阈值化和归一化处理,使得前景点的权重大于背景点,解决了前景关键点匹配到背景的问题,如图4。图4
实验结果
论文的实验在四个数据集上进行:Spair-71k(大规模),TSS、PF-PASCAL和PF-WILLOW(标准benchmark)。结果如下:图5. 实验结果
更多数值结果以及可视化,可以参考我们的论文[2]。
总结
图像语义匹配最近逐渐引起了大家的关注,我们将图像语义匹配问题转换成最优传输的问题,解决了多对一匹配以及背景匹配的问题。
更多的技术细节可以参考:
代码链接:csyanbin/SCOTgithub.com
参考文献
[1] Juhong Min, Jongmin Lee, Jean Ponce, and Minsu Cho. Hyperpixel flow: Semantic correspondence with multi-layer neural features. In ICCV, 2019.
[2] Yanbin Liu, Linchao Zhu, Makoto Yamada, and Yi Yang. Semantic Correspondence as an Optimal Transport Problem. InCVPR2020.