Matching Networks for One Shot Learning论文解读

最新推荐文章于 2021-08-14 17:36:06 发布

miguemath

最新推荐文章于 2021-08-14 17:36:06 发布

阅读量2.8k

点赞数 2

分类专栏：元学习论文文章标签：深度学习机器学习神经网络元学习

本文链接：https://blog.csdn.net/wangkaidehao/article/details/104716288

版权

本文深入解读了Matching Networks这篇论文，它提出了一种结合注意力机制和记忆的模型，旨在实现深度学习的一次性学习能力。在Omniglot、ImageNet和Penn Treebank数据集上的实验展示了其在小样本学习任务上的潜力，特别是在元学习和语言模型的应用中。

摘要由CSDN通过智能技术生成

这篇文章在元学习领域笔记重要，之前一直想读，这次正好有机会就把它给刷了。

本篇论文属于小样本学习领域，但是本篇论文中的Matching Networks常被用于与Meta-learning任务中的方法进行比较。这篇论文出自Google DeepMind团队，发表于2016年。

1 Motivation

人类可以可以通过非常少量的样本学习到一个新的概念，比如一个小孩子看完一张长颈鹿的照片之后就认识了长颈鹿这个动物。但是最好的深度学习模型依然需要成百上千的例子来学习到一个新的概念。因此本文就考虑如何通过一个样本就让深度学习模型学会一个新概念。

传统上训练出一个模型需要使用很多样本进行很多次的参数更新，因此作者认为可以使用一个无参数的模型。参考KNN这种度量式的做法，作者将有参数的模型和无参数的模型进行了结合。

2 Contribution

在模型层面上，作者提出了一个Matching Networks, 将注意力机制和记忆机制引入快速学习任务中。
在训练流程上，作者训练模型时遵循了一个很简单的规则，即测试和训练条件必须匹配。作者在训练时仅用每个类别中很少的样本进行训练，因为在测试时也使用的是很少的样本。（即训练条件和测试条件匹配）

3 Method

3.1 Model Architecture

在这里插入图片描述
$g_{\theta}$ 和 $f_\theta$ 分别是对训练数据和测试数据的编码函数。Matching Networks可以简洁表示为计算一个无标签样本的标签为 $\hat{y}$ 的概率，这个计算方法跟KNN很像，相当于是加权后的KNN：
$P(\hat{y}|\hat{x},S) = \sum^{k}_{i=1}a(\hat{x},x_i)y_i$
其中 $x_i,y_i$ 是输入的支撑集(support set)中的样本 $\{(x_i,y_i)\}^k_{i=1}$