论文阅读笔记《Adaptive Cross-Modal Few-shot Learning》

最新推荐文章于 2022-03-19 21:11:01 发布

深视

最新推荐文章于 2022-03-19 21:11:01 发布

阅读量1.7k

点赞数 1

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习度量学习

本文链接：https://blog.csdn.net/qq_36104364/article/details/106734661

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文在度量学习的基础上结合了语义信息实现小样本学习任务。作者的核心观点是在小样本条件下，有些时候图像特征信息具有较高的区分度，而有些时候语义信息具有较高的区分度，为了提高分类的准确度，作者提出一种自适应模态混合机制（Adaptive Modality Mixture Mechanism ，AM3）将两种信息结合，并利用一个网络输出二者之间的比例权重，利用混合的特征信息极大的改善了原有算法的分类效果。整个网络的流程如下图所示
在这里插入图片描述
如上图所示，训练图片经过一个特征提取网络 $f$ 得到对应的图像特征向量 $P_c$ ，然后语义标签信息首先经过一个词嵌入模型 $\mathcal{W}$ （提前在一个大规模文本语料库中经无监督训练得到的）得到对应的语义特征向量 $e_c$ ，然后经过一个维度变换网络 $g$ 将其转化为可以用于融合的特征 $W_c$ ，融合方式如下
在这里插入图片描述
式中 $\lambda_c$ 是一个分配权重系数，通过以下方式计算得到

式中 $h$ 是一个自适应混合网络。将混合后的特征 $P_{c}'$ ’作为原型，采用Prototypical Network的方式进行分类预测

$\theta$ 表示网络参数，包含 $\theta_f,\theta_g,\theta_h$ 三个部分。

实现过程

网络结构

特征提取网络 $f$ 采用ResNet-12结构，语义变换网络 $g$ 只有一个隐藏层，包含300个神经元，自适应混合网络 $h$ 同样只有一个隐藏层，包含300个神经元， $g$ 和 $h$ 均采用ReLU激活函数与dropout操作。

损失函数

如下所示
在这里插入图片描述

训练策略

如下所示
在这里插入图片描述

创新点

在特征提取阶段引入语义特征信息，并利用自适应混合网络调整语义特征与图像特征的融合比例

算法评价

本文提出的方法非常简单，思路也很清晰，设计的结构也很精简，不会对原有的基于度量学习的方法带来过多的计算压力，但却取得了非常显著的进步，在多个数据集上相对于baseline，本文的分类精度都有明显提升，尤其是在one-shot条件下，提升幅度甚至超过10%。本文提出的方法可移植性也比较强，能够广泛的同基于度量学习的小样本分类算法相结合，具有较强的学习和实用价值。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述