多模态集成分类用于广义零次学习

本文提出了一种新的广义零次学习(GZSL)方法,利用多模态集成(视觉和语义)在训练和测试过程中优化分类性能,特别是在可见和不可见类之间的平衡。通过引入语义属性预测、视觉数据增强、多模态集成模块和分类权重调整,提高了GZSL的H-mean和AUSUC指标,实现了在多个数据集上的最新SOTA结果。
摘要由CSDN通过智能技术生成

在这里插入图片描述
广义零次学习(GZSL)被定义为训练过程使用一组来自可见类的视觉样本以及一组来自可见和不可见类的语义样本,测试过程对来自可见和不可见类的视觉样本进行分类。**现有的方法基于这种测试过程,该过程仅仅只关注一种模态(视觉或语义),即使训练使用了两种模态(主要用于正则化训练过程)也是如此。**这种模态的未充分利用,特别是在测试过程中,可能会妨碍该零学习方法的分类准确性。另外,我们察觉到很少有方法会显式地优化可见和不可见类的平衡表现。该问题是GZSL方法中可见类的分类准确度极高背后的原因之一。在本论文中,我们提出了一种新的基于多模态训练和测试过程的GZSL方法来缓解这些问题,这样的优化可以显着提高可见和不可见类之间的平衡分类精度。此外,我们探索了视觉和语义分类器的贝叶斯推理,这是我们在GZSL框架中所做工作的另一个新颖之处。实验表明,在几种公开的GZSL基准数据集上,我们的方法在可见和不可见类别之间的调和平均数(H-mean)以及可见和不可见曲线下的面积(AUSUC)均保持了最新的SOTA结果。

方法

提出方法的框架图如下:
提出方法的整体架构图
整个框架分为4个模块:语义属性预测模块(Semantic Attribute Prediction)、视觉数据增强模块(V

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值