元学习2之原型网络prototypical-networks for few-shot learning回顾

最新推荐文章于 2024-05-23 00:24:25 发布

joejoeqian

最新推荐文章于 2024-05-23 00:24:25 发布

阅读量522

点赞数

分类专栏： Meta-learning 元学习 # 论文研读文章标签：学习深度学习计算机视觉

本文链接：https://blog.csdn.net/joejoeqian/article/details/130194022

版权

Meta-learning 元学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

论文研读

4 篇文章 0 订阅

订阅专栏

1.论文和代码

2.简介

小样本学习不仅仅训练和测试集的样本没有交集，类别也是没有交集的
论文一共做了两个任务：1.小样本；2. 零样本。

在这里插入图片描述

如图左边：
三种颜色代表三个类别（3-way）， $c_1,c_2,c_3$ 分别是三个类别的中心，用类中心表示类别的好处就是某个类别中某些数据存在一些噪声，用类中心来表示这个特征，比较robust，类中心对抗噪声的能力比单个样本生存的这个特征要强很多。
类中心（prototypes）用各类别下所有样本特征的平均值来计算的： $v_c=\frac{1}{|S_c|}\sum_{(x_i,y_i)\in S_c} f_{\theta}(x_i)$
$X$ 为是Query set，要确定它的类别，判断它的类别需要它分别计算与 $c_1,c_2,c_3$ 之间的距离，哪一个距离越小，与哪个类别的相似度就越大，就归为哪一类。

基于度量的元学习，度量类别与类别之间的距离的一些指标（欧式距离或者余弦距离等）。

3.算法流程

在这里插入图片描述

3.1 名词解释及符号定义

episode：表示一个N-way K-shot任务，N为类别数，K为每个类别的数量。 $N_C$ 为每个任务中类别的数量， $N_S+N_Q$ 每个类别样本的数量。这里就是 $N_C$ -way $N_S$ -shot $N_Q$ -query任务。
support set：有 $N_C$ 个类别，每个类别包含 $N_S$ 个样本。
query set：有 $N_C$ 个类别，每个类别包含 $N_S$ 个样本。
RANDOMSAMPLE(S,N)函数：从集合S上随机抽取N个元素。伪代码中的 $RANDOMSAMPLE(\{1，2,\cdots,K\},N_C)$ 也就是从总类别为K的数据集中随机抽取 $N_C$ 个类别的数据，比如在MiniImageNet数据集上进行 $R A N D OMS A MP L E (I ma g e N e t, 2)$ ，可能就抽到了1000个类别为“猫”的图片和1000个类别为“狗”的图片。

3.2 具体流程

1.从一个大的数据集上随机采样一个 $N_C$ -way K-shot任务，为一个episode。
2.将episode中的样本分为support set和query set（和support set没有重合），并且使用均值计算各类的prototypes，也就是 $c_k$ 。
3.对于 $N_C$ 个类别，利用每个类别中的query set中的样本计算损失函数。
重复抽取不同的episode，循环1、2、3.

3.3 损失函数

损失函数更新的规则： $\leftarrow J+\frac{1}{N_C N_Q}\left[d(f_{\phi}(x), c_k)+\log\sum_{k'}\exp(-d(f_{\phi}(x), c_k))\right]$ ，这是一个Softmax交叉熵损失函数。

Tips：

Softmax函数：是常用的激活函数，将一个向量映射成一个概率分布，形式： $y_{k}=\frac{e^{a_{k}}}{\sum_{i=1}^{n} e^{a_{i}}}$ 。
输入任意k维向量： $\Phi=[\phi_1,\phi_2,\cdots,\phi_k]\in \mathbb{R}^k$ ，对向量的每个值进行指数变换，得到 $k$ 个大于0的数，然后对结果做归一化，让得到的k个数相加等于1： $p=normalize([e^{\phi_1},\cdots,e^{\phi_k}])\in \mathbb{R}^k\rightarrow p=Softmax(\Phi)$
性质：
1. $p_i>0,i=1,\cdots,k.$
2. $\sum_{i=1}^k p_i = 1$
3.输出层
4.让大的输入值变大，小的变小，而又不像Max那么暴力
交叉熵损失：将Softmax计算所得概率与理想向量求交叉熵
一般来说理想向量为one-hot向量，即仅在第 $y$ 个位置为1，其余为0，所以最终只保留了第$ y$ 个位置的交叉熵。此时的Softmax 交叉熵损失函数表示为： $loss_{Softmax}=-\log p_y$ ，此时梯度为： $\frac{\partial loss}{\partial z_i}=\begin{cases}p_y(1-p_y),& y=i\\ -p_yp_j,&y \neq i\end{cases}$
详细推导见：1.Softmax函数与交叉熵;2.# softmax交叉熵损失函数深入理解

损失函数的推导：
- 根据下面两个公式：
  - $Softmax:p_{\phi}(y=k|x)=\frac{\exp(-d(f_{\phi}(x),c_k))}{\sum_{k'}\exp(-d(f_{\phi}(x),c_{k'}))}$
  - $J(\phi)=-\log p_{\phi}(y=k|x)$
- 将 $p_{\phi}(y=k|x)$ 代入 $J(\phi)$ 即可得： $\leftarrow J+\frac{1}{N_C N_Q}\left[d(f_{\phi}(x), c_k)+\log\sum_{k'}\exp(-d(f_{\phi}(x), c_k))\right]$

4.与 Match Networks 的区别

不同点如下：

1. 举例度量方式不一样：前者采用布雷格曼散度的欧几里得距离，后者采用 cosine 余弦相似度度量距离。
2.二者在 few-shot 的场景下不同，但在 one-shot 时变得一样
1. 网络结构上，原型网络将编码层和分类层合并为一层，这样参数更少，鲁棒性更好。

5.实验结果

在这里插入图片描述

实际上，用 consine 效果更好。

joejoeqian

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
元学习2之原型网络prototypical-networks for few-shot learning回顾

小样本学习不仅仅训练和测试集的样本没有交集，类别也是没有交集的论文一共做了两个任务：1.小样本；2. 零样本。如图左边：三种颜色代表三个类别（3-way），c1c2c3c1c2c3分别是三个类别的中心，用类中心表示类别的好处就是某个类别中某些数据存在一些噪声，用类中心来表示这个特征，比较robust，类中心对抗噪声的能力比单个样本生存的这个特征要强很多。类中心（prototypesvc1∣Sc∣∑xiyi∈Scfθxi。
复制链接

扫一扫