ICLR18 - Meta-learning for semi-supervised few-shot classification

ywm_up

于 2021-12-24 11:30:36 发布

阅读量407

点赞数 1

分类专栏：论文笔记文章标签：原型网络小样本学习 nlp

本文链接：https://blog.csdn.net/qq_41357569/article/details/122124345

版权

论文笔记专栏收录该内容

16 篇文章 2 订阅

订阅专栏

Ren MY, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification. ICLR 2018.

本文提出了三种原型网络的变体，表现超过了原来的原型网络。

变体1： Prototypical networks with soft k-means

请添加图片描述

我们不仅有 support set、query set，而且还有一个 unlabeled set。先用 support set 初始化每个类的原型（中心），然后再给 unlabeled set 打上软标签，再重新计算每个类的原型。

类似 k-means 一样，多步迭代，直到中心位置不变。

变体2：Prototypical networks with soft k-means with a distractor cluster

变体1会出现一个现实问题：我们想加一个 unlabeled set，但是去网上下载的图片不可能全是我们想要的这些类别，会出现一些错误样本，对模型造成很大影响。

一个简单的方法就是增加一个错误簇，将这些有问题的样本全部放到这个簇里面，防止它们污染好的分类。

有点像 O 类别，O 类别同样噪音很多，但是通常研究者不会计算 O 的原型。

原型初始化：
$p_{c}= \begin{cases}\frac{\sum_{i} h\left(\boldsymbol{x}_{i}\right) z_{i, c}}{\sum_{i} z_{i, c}} & \text { for } c=1 \ldots N \\ 0 & \text { for } c=N+1\end{cases}$

在相似性度量的时候，再加一个距离尺度变量 $r_c$ ，其他簇的距离尺度设置为1，错误簇的距离尺度用来学习：
$\tilde{z}_{j, c}=\frac{\exp \left(-\frac{1}{r_{c}^{2}}\left\|\tilde{x}_{j}-p_{c}\right\|_{2}^{2}-A\left(r_{c}\right)\right)}{\sum_{c^{\prime}} \exp \left(-\frac{1}{r_{c}^{2}}\left\|\tilde{x}_{j}-p_{c^{\prime}}\right\|_{2}^{2}-A\left(r_{c^{\prime}}\right)\right)}, \text { where } A(r)=\frac{1}{2} \log (2 \pi)+\log (r)$

变体3：Prototypical networks with soft k-means and masking

变体2想法过于简单，错误簇可能包含的错误样本并可能不是同一个类别，将它们放到一起并不合适。那么这个变体将错误簇去掉了，用另一种方式，选择性的将 unlabeled sample 加入到簇中。

首先还是一样，用 support set 计算每个类的原型 $p_c$ 。对于一个 unlabeled sample，计算 sample 到每个原型的距离 $\tilde d_{j,c}$ ：
$\tilde{d}_{j, c}=\frac{d_{j, c}}{\frac{1}{M} \sum_{j} d_{j, c}}, \text { where } d_{j, c}=\left\|h\left(\tilde{x}_{j}\right)-p_{c}\right\|_{2}^{2}$

然后将 $\tilde d_{j,c}$ 放入到一个MLP（masked language model）中，计算make的阈值 $β_c$ 和斜率 $γ_c$ ：
$\left[\beta_{c}, \gamma_{c}\right]=\operatorname{MLP}\left(\left[\min _{j}\left(\tilde{d}_{j, c}\right), \max _{j}\left(\tilde{d}_{j, c}\right), \operatorname{var}_{j}\left(\tilde{d}_{j, c}\right), \operatorname{skew}_{j}\left(\tilde{d}_{j, c}\right), \operatorname{kurt}_{j}\left(\tilde{d}_{j, c}\right)\right]\right)$

最后根据阈值和斜率，计算 mask 概率，然后重新更新原型， $σ ()$ 是 sigmoid 函数。
$\tilde{p}_{c}=\frac{\sum_{i} h\left(\boldsymbol{x}_{i}\right) z_{i, c}+\sum_{j} h\left(\tilde{\boldsymbol{x}}_{j}\right) \tilde{z}_{j, c} m_{j, c}}{\sum_{i} z_{i, c}+\sum_{j} \tilde{z}_{j, c} m_{j, c}}, \text { where } m_{j, c}=\sigma\left(-\gamma_{c}\left(\tilde{d}_{j, c}-\beta_{c}\right)\right)$

结果

Supervised：原始的原型网络
Semi-Supervised Inference：带有 soft k-means的原型网络，但是只迭代一次计算中心

实验结果可以看到，效果都超出原来的原型网络。

ywm_up

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ICLR18 - Meta-learning for semi-supervised few-shot classification

Ren MY, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification. ICLR 2018.本文提出了三种原型网络的变体，表现超过了原来的原型网络。变体1： Prototypical networks with soft k-means我们不仅有 support set、query set，而且还有一个 unlabeled set。先用 support set 初始化每个类的
复制链接

扫一扫