多模态集成分类用于广义零次学习

最新推荐文章于 2024-07-17 20:33:53 发布

鸭老板

最新推荐文章于 2024-07-17 20:33:53 发布

阅读量705

点赞数 1

分类专栏：零次学习文献阅读文章标签：深度学习人工智能神经网络计算机视觉机器学习

本文链接：https://blog.csdn.net/qq_24399533/article/details/113248526

版权

本文提出了一种新的广义零次学习（GZSL）方法，利用多模态集成（视觉和语义）在训练和测试过程中优化分类性能，特别是在可见和不可见类之间的平衡。通过引入语义属性预测、视觉数据增强、多模态集成模块和分类权重调整，提高了GZSL的H-mean和AUSUC指标，实现了在多个数据集上的最新SOTA结果。

摘要由CSDN通过智能技术生成

在这里插入图片描述
广义零次学习（GZSL）被定义为训练过程使用一组来自可见类的视觉样本以及一组来自可见和不可见类的语义样本，测试过程对来自可见和不可见类的视觉样本进行分类。**现有的方法基于这种测试过程，该过程仅仅只关注一种模态（视觉或语义），即使训练使用了两种模态（主要用于正则化训练过程）也是如此。**这种模态的未充分利用，特别是在测试过程中，可能会妨碍该零学习方法的分类准确性。另外，我们察觉到很少有方法会显式地优化可见和不可见类的平衡表现。该问题是GZSL方法中可见类的分类准确度极高背后的原因之一。在本论文中，我们提出了一种新的基于多模态训练和测试过程的GZSL方法来缓解这些问题，这样的优化可以显着提高可见和不可见类之间的平衡分类精度。此外，我们探索了视觉和语义分类器的贝叶斯推理，这是我们在GZSL框架中所做工作的另一个新颖之处。实验表明，在几种公开的GZSL基准数据集上，我们的方法在可见和不可见类别之间的调和平均数（H-mean）以及可见和不可见曲线下的面积（AUSUC）均保持了最新的SOTA结果。