论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》

最新推荐文章于 2023-08-02 00:38:29 发布

深视

最新推荐文章于 2023-08-02 00:38:29 发布

阅读量997

点赞数 1

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习语义信息

本文链接：https://blog.csdn.net/qq_36104364/article/details/106566595

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种结合多种语义信息的小样本学习算法。首先作者提到人类的幼儿在学习新的事物时，通常是利用多种语义信息综合学习的，比如你给他看一只狗，他不仅接收到视觉和简单的语义标签信息，你还会给他描述这只狗有金色的毛发，它还会汪汪叫。如此一来幼儿就可接收到多种语义信息，帮助他学习识别狗。正是出于这种思想，作者提出利用多种更为丰富的语义信息来帮助模型实现小样本学习，网络的结构如下图所示。
在这里插入图片描述
整个算法还是基于原型网络Prototypical Network的思想，首先对于支持集图像，通过卷积神经网络进行特征提取，并根据特征向量计算得到视觉原型 $V$ 。然后对于多种语义信息，如语义标签，图像描述和物体属性，使用对应的嵌入式网络进行特征提取，如使用GloVe处理标签，使用BERT处理图像描述。接着利用一个MLP将特征信息转化为对应的语义原型 $S_i$ 。最后将语义原型 $S_i$ 与视觉原型 $V$ ，按照一定的权重进行融合，并将融合后的原型 $P_i$ ，进一步与下一种语义原型 $S_{i+1}$ 进行融合，最终得到融合原型 $P$ 。将融合原型 $P$ 与查询集图像的视觉特征 $Q$ 进行相似性度量，并预测类别标签。
在上述融合过程中，权重 $\alpha_i$ 是利用一个语义注意力模块计算得到的，他的输入是视觉原型 $V$ 和所有的语义原型 $S_i, i=1,...,k$ ，输出就是对应的权重 $\alpha_i$ 。融合的计算过程如下
在这里插入图片描述
注意式中的连乘符号，因为融合的过程是串联的，因此视觉原型 $V$ 要连续与权重系数 $\alpha_i$ 相乘，语义原型也是同理。

实现过程

网络结构

视觉特征提取网络部分采用DenseNet-121，语义特征提取网络部分采用两层的MLP，语义注意力模块也采用两层MLP。

损失函数

采用交叉熵损失函数

训练策略

不仅对最后的输出结果计算损失，而且对中间每次融合得到的原型 $P_r$ 都预测结果，并计算损失，形成深度监督。
在这里插入图片描述

创新点

利用多种语义信息来丰富小样本学习的信息来源，更加接近人类学习新事物的状况
使用串联的多模型融合方案，并采用深度监督的形式对中间结果进行监督

算法评价

本文采用与多种语义信息相结合的方式实现小样本学习任务，但是如何获得准确的语义信息将是限制本文应用的一个重要因素。如果支持集中不包含准确的语义描述或者其他的信息，那么需要人工标注或者借助语义领域的一些方法进行自动标注，那么这样则会引入新的噪声。另一方面本文在进行信息融合时，是采用的串联方式，这种方式无疑会导致早期的输入影响不断降低，如视觉原型连乘多个权重系数后，其对结果的影响可能会大大降低，这样做是否合理呢？

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述