有视觉结构约束的直推式零次学习
摘要
大多现有ZSL方法先是学习,在基于源已知类的视觉空间,和公共语义空间之间的兼容映射函数,然后直接将其应用于识别未知类对象。
但是在实际场景中,源域和目标域之间的数据分布可能不匹配,存在域位移问题
在观察到测试实例的视觉特征可以被划分到不同簇的基础上,本文提出了一种新的直推式ZSL类中心的视觉结构约束,以提高映射的泛用性(解决域位移问题)
。
采用三种不同的策略(对称室距离、二部匹配距离和瓦瑟斯坦距离)来对齐测试实例的映射出的未知语义中心和视觉簇中心。
还提出新的训练策略来处理测试数据集中存在许多不相关图像的真实情况(?)
1 引言
已知类(源域)
未知类(目标域)
两域通常共享一个语义空间,即已知与未知间有语义关联。
同时两域图像也可以在视觉特征空间有关联和表示。
为了将语义空间和视觉空间关联起来,现有方法通常依靠源域数据学习兼容映射函数(模型)
将一个空间映射到另一个空间,或者使用两个兼容映射函数将两个空间映射到一个共同的嵌入空间。
测试时,为了识别目标域中的图像,使用学好的模型将所有未知类的语义向量和该图像的视觉特征映射到嵌入空间中(那就是上面说的方法二咯)
,然后进行KNN搜索,找到最佳匹配类。
但是现实是两域分布存在差异,导致域偏移。弥补策略是假设所有未知类的语义信息和视觉特征已知(?)
,因为这些未知类是可以在未知的条件下也可以聚类
于是考虑将这些先验知识作为正则项,通过非凸优化求解标签分配矩阵
缺陷:
1.这种视觉结构先验没用到学习中,拖了性能后腿
2.ZSL建模成批处理模式,每次测试都得重新优化
3.没有考虑测试集中可能有不相关图像导致先验白费
针对问题一,将上述视觉结构先验建模为一个新的约束条件来学习映射函数,而不是使用预定义的映射函数。本文以视觉空间作为嵌入空间,并将语义空间映射到其中。
为了学习映射函数,不仅使用源域数据的投影约束作为[35](是做成[35]那样吗)
,而且还对上述目标域数据施加了视觉结构约束。
具体来说,在训练过程中,首先将所有未知类语义映射到视觉空间中,然后考虑三种不同的策略(“基于室距离”、“基于二部匹配”和“基于瓦瑟斯坦距离”)来对齐映射出的未知的语义中心和视觉中心。然而,由于在ZSL设置中缺乏测试实例的标签,使用一些无监督聚类算法(e.g.K-Means)来近似这些视觉中心。
针对问题三,由于许多不相关的图像不属于已知类,是在目标领域中,所以无监督聚类出的会是无效的视觉中心,误导学习。
因此提出了一种新的训练策略,首先过滤掉高度不相关的图像,然后使用剩余的图像来施加所提出的视觉约束。
。
。
。