ICLR18 - Meta-learning for semi-supervised few-shot classification

Ren MY, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification. ICLR 2018.

本文提出了三种原型网络的变体,表现超过了原来的原型网络。

变体1: Prototypical networks with soft k-means

请添加图片描述

我们不仅有 support set、query set,而且还有一个 unlabeled set。先用 support set 初始化每个类的原型(中心),然后再给 unlabeled set 打上软标签,再重新计算每个类的原型。

类似 k-means 一样,多步迭代,直到中心位置不变。

变体2:Prototypical networks with soft k-means with a distractor cluster

变体1会出现一个现实问题:我们想加一个 unlabeled set,但是去网上下载的图片不可能全是我们想要的这些类别,会出现一些错误样本,对模型造成很大影响。

一个简单的方法就是增加一个错误簇,将这些有问题的样本全部放到这个簇里面,防止它们污染好的分类。

有点像 O 类别,O 类别同样噪音很多,但是通常研究者不会计算 O 的原型。

原型初始化:
p c = { ∑ i h ( x i ) z i , c ∑ i z i , c  for  c = 1 … N 0  for  c = N + 1 p_{c}= \begin{cases}\frac{\sum_{i} h\left(\boldsymbol{x}_{i}\right) z_{i, c}}{\sum_{i} z_{i, c}} & \text { for } c=1 \ldots N \\ 0 & \text { for } c=N+1\end{cases} pc={izi,cih(xi)zi,c0 for c=1N for c=N+1

在相似性度量的时候,再加一个距离尺度变量 r c r_c rc,其他簇的距离尺度设置为1,错误簇的距离尺度用来学习:
z ~ j , c = exp ⁡ ( − 1 r c 2 ∥ x ~ j − p c ∥ 2 2 − A ( r c ) ) ∑ c ′ exp ⁡ ( − 1 r c 2 ∥ x ~ j − p c ′ ∥ 2 2 − A ( r c ′ ) ) ,  where  A ( r ) = 1 2 log ⁡ ( 2 π ) + log ⁡ ( r ) \tilde{z}_{j, c}=\frac{\exp \left(-\frac{1}{r_{c}^{2}}\left\|\tilde{x}_{j}-p_{c}\right\|_{2}^{2}-A\left(r_{c}\right)\right)}{\sum_{c^{\prime}} \exp \left(-\frac{1}{r_{c}^{2}}\left\|\tilde{x}_{j}-p_{c^{\prime}}\right\|_{2}^{2}-A\left(r_{c^{\prime}}\right)\right)}, \text { where } A(r)=\frac{1}{2} \log (2 \pi)+\log (r) z~j,c=cexp(rc21x~jpc22A(rc))exp(rc21x~jpc22A(rc)), where A(r)=21log(2π)+log(r)

变体3:Prototypical networks with soft k-means and masking

变体2想法过于简单,错误簇可能包含的错误样本并可能不是同一个类别,将它们放到一起并不合适。那么这个变体将错误簇去掉了,用另一种方式,选择性的将 unlabeled sample 加入到簇中。

首先还是一样,用 support set 计算每个类的原型 p c p_c pc。对于一个 unlabeled sample,计算 sample 到每个原型的距离 d ~ j , c \tilde d_{j,c} d~j,c
d ~ j , c = d j , c 1 M ∑ j d j , c ,  where  d j , c = ∥ h ( x ~ j ) − p c ∥ 2 2 \tilde{d}_{j, c}=\frac{d_{j, c}}{\frac{1}{M} \sum_{j} d_{j, c}}, \text { where } d_{j, c}=\left\|h\left(\tilde{x}_{j}\right)-p_{c}\right\|_{2}^{2} d~j,c=M1jdj,cdj,c, where dj,c=h(x~j)pc22

然后将 d ~ j , c \tilde d_{j,c} d~j,c 放入到一个MLP(masked language model)中,计算make的阈值 β c β_c βc 和斜率 γ c γ_c γc
[ β c , γ c ] = MLP ⁡ ( [ min ⁡ j ( d ~ j , c ) , max ⁡ j ( d ~ j , c ) , var ⁡ j ( d ~ j , c ) , skew ⁡ j ( d ~ j , c ) , kurt ⁡ j ( d ~ j , c ) ] ) \left[\beta_{c}, \gamma_{c}\right]=\operatorname{MLP}\left(\left[\min _{j}\left(\tilde{d}_{j, c}\right), \max _{j}\left(\tilde{d}_{j, c}\right), \operatorname{var}_{j}\left(\tilde{d}_{j, c}\right), \operatorname{skew}_{j}\left(\tilde{d}_{j, c}\right), \operatorname{kurt}_{j}\left(\tilde{d}_{j, c}\right)\right]\right) [βc,γc]=MLP([jmin(d~j,c),jmax(d~j,c),varj(d~j,c),skewj(d~j,c),kurtj(d~j,c)])

最后根据阈值和斜率,计算 mask 概率,然后重新更新原型, σ ( ) σ() σ()是 sigmoid 函数。
p ~ c = ∑ i h ( x i ) z i , c + ∑ j h ( x ~ j ) z ~ j , c m j , c ∑ i z i , c + ∑ j z ~ j , c m j , c ,  where  m j , c = σ ( − γ c ( d ~ j , c − β c ) ) \tilde{p}_{c}=\frac{\sum_{i} h\left(\boldsymbol{x}_{i}\right) z_{i, c}+\sum_{j} h\left(\tilde{\boldsymbol{x}}_{j}\right) \tilde{z}_{j, c} m_{j, c}}{\sum_{i} z_{i, c}+\sum_{j} \tilde{z}_{j, c} m_{j, c}}, \text { where } m_{j, c}=\sigma\left(-\gamma_{c}\left(\tilde{d}_{j, c}-\beta_{c}\right)\right) p~c=izi,c+jz~j,cmj,cih(xi)zi,c+jh(x~j)z~j,cmj,c, where mj,c=σ(γc(d~j,cβc))

结果

  • Supervised:原始的原型网络
  • Semi-Supervised Inference:带有 soft k-means的原型网络,但是只迭代一次计算中心
    请添加图片描述
    请添加图片描述
    实验结果可以看到,效果都超出原来的原型网络。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Crossformer是一种利用交叉维度依赖性进行多元时间序列预测的Transformer模型。这个模型的动机是填补之前Transformer在处理多元时间序列时对不同变量之间关系刻画不足的问题。之前的Transformer更多地关注如何通过时间维度的注意力机制建立时序上的关系,而忽略了变量之间的关系。Crossformer通过引入时间维度和变量维度两个阶段的注意力机制来解决这个问题。特别是在变量维度上,Crossformer提出了一种高效的路由注意力机制。这篇论文填补了多元时间序列预测中变量关系建模的空白,并在ICLR2023中被提出。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *3* [【ICLR 2023】 CrossFormer增强多元时间序列建模能力](https://blog.csdn.net/qq_33431368/article/details/129483613)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [读论文《Crossformer:利用跨维度依赖进行多变量时间序列预测的Transform》](https://blog.csdn.net/vzvzvzv/article/details/131376526)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值