论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种结合多种语义信息的小样本学习算法。首先作者提到人类的幼儿在学习新的事物时,通常是利用多种语义信息综合学习的,比如你给他看一只狗,他不仅接收到视觉和简单的语义标签信息,你还会给他描述这只狗有金色的毛发,它还会汪汪叫。如此一来幼儿就可接收到多种语义信息,帮助他学习识别狗。正是出于这种思想,作者提出利用多种更为丰富的语义信息来帮助模型实现小样本学习,网络的结构如下图所示。
在这里插入图片描述
  整个算法还是基于原型网络Prototypical Network的思想,首先对于支持集图像,通过卷积神经网络进行特征提取,并根据特征向量计算得到视觉原型 V V V。然后对于多种语义信息,如语义标签,图像描述和物体属性,使用对应的嵌入式网络进行特征提取,如使用GloVe处理标签,使用BERT处理图像描述。接着利用一个MLP将特征信息转化为对应的语义原型 S i S_i Si。最后将语义原型 S i S_i Si与视觉原型 V V V,按照一定的权重进行融合,并将融合后的原型 P i P_i Pi,进一步与下一种语义原型 S i + 1 S_{i+1} Si+1进行融合,最终得到融合原型 P P P。将融合原型 P P P与查询集图像的视觉特征 Q Q Q进行相似性度量,并预测类别标签。
  在上述融合过程中,权重 α i \alpha_i αi是利用一个语义注意力模块计算得到的,他的输入是视觉原型 V V V和所有的语义原型 S i , i = 1 , . . . , k S_i, i=1,...,k Si,i=1,...,k,输出就是对应的权重 α i \alpha_i αi。融合的计算过程如下
在这里插入图片描述
注意式中的连乘符号,因为融合的过程是串联的,因此视觉原型 V V V要连续与权重系数 α i \alpha_i αi相乘,语义原型也是同理。

实现过程

网络结构

  视觉特征提取网络部分采用DenseNet-121,语义特征提取网络部分采用两层的MLP,语义注意力模块也采用两层MLP。

损失函数

  采用交叉熵损失函数

训练策略

  不仅对最后的输出结果计算损失,而且对中间每次融合得到的原型 P r P_r Pr都预测结果,并计算损失,形成深度监督。
在这里插入图片描述

创新点

  • 利用多种语义信息来丰富小样本学习的信息来源,更加接近人类学习新事物的状况
  • 使用串联的多模型融合方案,并采用深度监督的形式对中间结果进行监督

算法评价

  本文采用与多种语义信息相结合的方式实现小样本学习任务,但是如何获得准确的语义信息将是限制本文应用的一个重要因素。如果支持集中不包含准确的语义描述或者其他的信息,那么需要人工标注或者借助语义领域的一些方法进行自动标注,那么这样则会引入新的噪声。另一方面本文在进行信息融合时,是采用的串联方式,这种方式无疑会导致早期的输入影响不断降低,如视觉原型连乘多个权重系数后,其对结果的影响可能会大大降低,这样做是否合理呢?

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值