广义零次学习(GZSL)被定义为训练过程使用一组来自可见类的视觉样本以及一组来自可见和不可见类的语义样本,测试过程对来自可见和不可见类的视觉样本进行分类。**现有的方法基于这种测试过程,该过程仅仅只关注一种模态(视觉或语义),即使训练使用了两种模态(主要用于正则化训练过程)也是如此。**这种模态的未充分利用,特别是在测试过程中,可能会妨碍该零学习方法的分类准确性。另外,我们察觉到很少有方法会显式地优化可见和不可见类的平衡表现。该问题是GZSL方法中可见类的分类准确度极高背后的原因之一。在本论文中,我们提出了一种新的基于多模态训练和测试过程的GZSL方法来缓解这些问题,这样的优化可以显着提高可见和不可见类之间的平衡分类精度。此外,我们探索了视觉和语义分类器的贝叶斯推理,这是我们在GZSL框架中所做工作的另一个新颖之处。实验表明,在几种公开的GZSL基准数据集上,我们的方法在可见和不可见类别之间的调和平均数(H-mean)以及可见和不可见曲线下的面积(AUSUC)均保持了最新的SOTA结果。
方法
提出方法的框架图如下:
整个框架分为4个模块:语义属性预测模块(Semantic Attribute Prediction)、视觉数据增强模块(V