论文阅读笔记《Adaptive Cross-Modal Few-shot Learning》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文在度量学习的基础上结合了语义信息实现小样本学习任务。作者的核心观点是在小样本条件下,有些时候图像特征信息具有较高的区分度,而有些时候语义信息具有较高的区分度,为了提高分类的准确度,作者提出一种自适应模态混合机制(Adaptive Modality Mixture Mechanism ,AM3)将两种信息结合,并利用一个网络输出二者之间的比例权重,利用混合的特征信息极大的改善了原有算法的分类效果。整个网络的流程如下图所示
在这里插入图片描述
  如上图所示,训练图片经过一个特征提取网络 f f f得到对应的图像特征向量 P c P_c Pc,然后语义标签信息首先经过一个词嵌入模型 W \mathcal{W} W(提前在一个大规模文本语料库中经无监督训练得到的)得到对应的语义特征向量 e c e_c ec,然后经过一个维度变换网络 g g g将其转化为可以用于融合 的特征 W c W_c Wc,融合方式如下
在这里插入图片描述
式中 λ c \lambda_c λc是一个分配权重系数,通过以下方式计算得到
在这里插入图片描述
式中 h h h是一个自适应混合网络。将混合后的特征 P c ′ P_{c}' Pc’作为原型,采用Prototypical Network的方式进行分类预测
在这里插入图片描述
θ \theta θ表示网络参数,包含 θ f , θ g , θ h \theta_f,\theta_g,\theta_h θf,θg,θh三个部分。

实现过程

网络结构

  特征提取网络 f f f采用ResNet-12结构,语义变换网络 g g g只有一个隐藏层,包含300个神经元,自适应混合网络 h h h同样只有一个隐藏层,包含300个神经元, g g g h h h均采用ReLU激活函数与dropout操作。

损失函数

  如下所示
在这里插入图片描述

训练策略

  如下所示
在这里插入图片描述

创新点

  • 在特征提取阶段引入语义特征信息,并利用自适应混合网络调整语义特征与图像特征的融合比例

算法评价

  本文提出的方法非常简单,思路也很清晰,设计的结构也很精简,不会对原有的基于度量学习的方法带来过多的计算压力,但却取得了非常显著的进步,在多个数据集上相对于baseline,本文的分类精度都有明显提升,尤其是在one-shot条件下,提升幅度甚至超过10%。本文提出的方法可移植性也比较强,能够广泛的同基于度量学习的小样本分类算法相结合,具有较强的学习和实用价值。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值