如何理解few-shot learning中的n-way k-shot？

最新推荐文章于 2025-02-22 23:49:06 发布

javastart

最新推荐文章于 2025-02-22 23:49:06 发布

阅读量2.2k

点赞数

分类专栏：自然语言文章标签：深度学习人工智能

原文链接：https://www.zhihu.com/question/363200569/answer/2626785660?utm_id=0

版权

自然语言专栏收录该内容

164 篇文章

订阅专栏

原文：https://www.zhihu.com/question/363200569/answer/2626785660?utm_id=0

作者：胖迪王

链接：https://www.zhihu.com/question/363200569/answer/2626785660

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

论文：[1606.04080] Matching Networks for One Shot Learning (arxiv.org)

时间：NIPS 2016

最近在读《Matching Networks for One Shot Learning》这篇文章，里面好多内容有些疑问，以下参考博客并结合自己的理解，可能有些地方存在问题，希望大家多多指正。每天学一点知识，你将变得更优秀哒。

N-way-K-shot任务

N-way-K-shot任务就是将任务 τ\tau 划分为N个类别（way）,每个类别的支持集（support set）包含K个样本,任务 τ\tau 中剩余的样本作为该任务的验证集（query set）.其中每个"任务"包含支持集（support set）和验证集（query set）

匹配网络

目的：提供一个网络框架，能将少量数据集和未标记的实例映射到所属标签，避免通过微调已训练好的模型来适应新类

创新点：结合度量学习和记忆增强神经网络的新型神经网络结构----匹配网络

对于少量数据集而言，模型在拟合数据时，可能会产生过拟合问题，这个问题可使用正则化和数据增强方式来缓和。但这些都是治标不治本。训练样本需要被参数模型通过梯度下降对参数进行更新，使得学习速率比较缓慢。对于许多非参数模型能快速同化新的实例并且不会遭受遗忘。作者结合参数模型和非参数模型来获取新的实例，提高模型的泛化能力。作者从注意力的序列到序列（seq2seq）、记忆网络以及指针网络中获得灵感。提出了匹配网络，它利用注意力机制和记忆机制加速学习，实现在少量数据的条件下对无标签的实例进行标签预测。

符合定义：支持集 S=(xi,yi)i=1kS=(x_i,y_i)_{i=1}^k ，预测类别的图像为 x^\hat{x}

算法理论：

1.基于余弦距离的注意力机制

通过余弦距离计算训练实例 xix_i 与测试实例 x^\hat{x} 之间的相似度，通过softmax对相似度进行归一化后得到测试实例x^\hat{x}在训练样本xix_i上的注意力分布 a(x^,xi)a(\hat{x},x_i)

a(x^,xi)=ec(f(x^),g(xi))∑j=1kec(f(x^),g(xi))a(\hat{x},x_i)=\frac{e^{c(f(\hat{x}),g(x_i))}}{\sum _{j=1}^ke^{c(f(\hat{x}),g(x_i))}}

其中，嵌入函数g和f的作用是将xix_i和x^\hat{x}嵌入（embadding）到空间中（特征提取）

模型的输出 yi^\hat{y_i} :

P(y^|x^,S)=∑i=1ka(x^,xi)yiP(\hat{y}|\hat{x},S)=\sum_{i=1}^{k}a(\hat{x},x_i)y_i

2.Full Context Embeddings

1.训练集嵌入函数g

首先，通过一个普通的网络（VGG等）对支持集中训练样本的每个样本进行原始特征提取，记为 g′(xi)g'(x_i)

然后，采用一个双向LSTM模型，为每个训练实例xix_i设置四个状态量，分别是

前向隐状态 →hi\underset{h_i}{\rightarrow} 和 →ci\underset{c_i}{\rightarrow} ,由前一个训练实例 xi−1x_{i-1} 的隐状态和记忆细胞通过LSTM模型确定:

→hi,→ci=LSTM(g′(xi),→hi−1,→ci−1)\underset{h_i}{\rightarrow},\underset{c_i}{\rightarrow}=LSTM(g'(x_i),\underset{h_{i-1}}{\rightarrow},\underset{c_{i-1}}{\rightarrow})

前向隐状态 ←hi\underset{h_i}{\leftarrow} 和 ←ci\underset{c_i}{\leftarrow} ,由前一个训练实例 xi+1x_{i+1} 的隐状态和记忆细胞通过LSTM模型确定:

←hi,←ci=LSTM(g′(xi),←hi+1,←ci+1)\underset{h_i}{\leftarrow},\underset{c_i}{\leftarrow}=LSTM(g'(x_i),\underset{h_{i+1}}{\leftarrow},\underset{c_{i+1}}{\leftarrow})

支持集的特征由前后隐状态和原始特征共同决定：