论文题目 Embedding Propagation: Smoother Manifold for Few-Shot Classification ECCV 2020
1分钟思维导图( 来源 )
Abstract
目前小样本学习(Few-shot Learning,FSL)是非常具有挑战性的,是由于训练集和测试集的分布可能存在不同,产生的分布偏移(distribution shift)会导致较差的泛化性。**流形平滑(Manifold smoothing)**通过扩展决策边界和减少类别表示的噪音(extending the decision boundaries and reducing the noise of the class representations),已经被证明能够解决分布偏移问题。此外,流形平滑是半监督学习和直推学习( transductive learning )算法的一个重要因素。在本文中,作者提出使用表征传播( embedding propagation)作为流形平滑的无监督非参正则化器(unsupervised non-parametric regularizer),用于小样本分类。表征传播利用了特征之间的插值,该特征是由基于相似图的神经网络提取的。通过实验表明。表征传播会产生更平滑的流形表征;也表明在直推式学习上利用表征传播能达到SOTA,在各种小样本的基准测试上。提出的表征传播操作能容易的集成到神经网络的非参数层中。其原文和代码链接如下:
https://arxiv.org/abs/2003.04151arxiv.org
https://github.com/ElementAI/embedding-propagationgithub.com
Introduction
目前的深度学习方法都依赖于大量的标记数据,而小样本学习对于减少对人为标注的依赖有着巨大的潜力。在这项工作中,使用的方法介于度量学习( metric learning)和迁移学习( transfer learning)。在训练期间,模型尝试使用基于度量的分类器进行微调,学习出通用的特征表示。 本工作表明,重新构建的标签传播进行流形平滑能提高小样本分类性能。不同于之前的方法manifold mixup(ICML 2019),该过程是无监督的,同时能够获取表征之间的高阶交互信息。提出的表征传播(EP),利用了特征之间的插值,该特征是由基于相似图的神经网络提取的。此图是利用径向基函数特征( the features using the radial basis function (RBF))之间的两两相似点进行构建的。该非参结构被称为EPNet。这一改进背后的假设是基于这样一个事实,即使用插值表征会产生更平滑的决策边界已经增加对噪声的鲁棒性。
Proposed Method
Embedding propagation
表征传播的输入数据是由 feature extractor (CNN)得到的特征 ,通过以下的步骤得到输出表征 。首先,对于每一对feature ,计算器欧式距离 以及邻接矩阵 其中 是比例系数, 。下面开始计算对应的拉普拉斯矩阵:
使用经典的标签传播得到传播矩阵P:
最终的表征通过以下公式得到:
其中,可以看作其邻居的带权和。该操作是很容易实现,同时其复杂度相对于对于小样本学习是可以忽略的。
Training procedure
EPNet的训练过程分为两个阶段,如图二所示。首先,该模型使用训练集 进行通常的预训练;然后,进行 episodic training来学习新类别的泛化。在两个阶段中,都是使用相同的feature extractor 来提取图片的特征。
Pre-training phase
如图2(a)所示,使用两个线性分类器训练,参数分别为和。第一个分类器就用来预测在训练集中的label,通过交叉熵优化:
另外,增加了自监督损失来取得更robust的表征。因此,使用第二个分类器来预测图片的旋转:
其中, 表示输入被旋转后,被softmax预测的概率。 总体的损失函数如下,使用随机梯度下降优化:
Episodic Learning phase
如图2(b)所示,经过预训练过程后,进行episodic learning训练。该过程也使用了两个分类器。第一个使用标签传播,损失函数如下:
第二个分类器与在预训练阶段基于W-l的分类器相同。优化如下损失:
Experimental Results
从结果可以看到EPNet无论在小样本学习和无监督学习设置上,都能取得SOTA效果。同比了几个基于graph的小样本方法,不仅性能更好,同时参数量也较低。具体的实现细节和数据集介绍请参考原文。
Algorithm ablation
其中ROT代表旋转损失,EFT代表表征fine-tuning,LP表示标签传播,EP代表表征传播。可以发现主要的提升在于EP和LP的加入。
Embedding propagation on manifold smoothness
该结果表明EP的加入能产生更平滑的决策边界。
CO2 Emission Related to Experiments
第一次见这个实验,,,在附加材料中,非常环保了。
Personal Thounght
优点:
- 提出的方法像是个融合体,提出的EPNet同时利用了预训练和metric-learning的思想,也利用graph上的传播方法,达到了SOTA
- 实验做的非常多,特别是消融实验,基本上所有情况都列出了
- 最后附加材料中的CO2 Emission Related to Experiments比较interesting,个人第一次见
comments:
- 核心观点是流形平滑,但是在方法介绍中却很少提及,缺失一些证明
- 有些实验的设置感觉没有说清楚