本篇博客将分享一篇来自2020CVPR的小样本学习文章。在图像分类的小样本学习方向目前比较流行的主要方法有三个:
- 基于度量学习的小样本学习方法,主要是对支持集和询问集样本特征的度量进行建模,使得通过设计的度量方法可以对支持集和询问集各样本间的相似度量化,从而得到询问集样本的预测类别;
2)基于元学习的小样本学习方法,通过元学习的相关算法使得模型具有适应多任务场景的能力,而小样本学习便可以看做是一种经典的多任务学习的问题;
3)基于数据增强的小样本学习方法,从起初使用迁移学习方法增强特征表达到最近使用半监督学习方法引入未标记样本,都属于广义上的数据增强方法。而本博客要介绍的便是使用半监督学习方法实现的小样本图像分类。
1 主要贡献
从机器学习中的并发参数入手,研究其在对有标签支持集数据和无标签补充数据的回归模型中的作用。使用该并发参数反应模型对样本的拟合程度,并根据该拟合程度不断选择可信度高的伪标签数据增强回归模型的泛化能力和拟合能力,进而提高模型在小样本分类中的表现。
2 整体思路
实例可信度推断模型聚焦如何将未标记样本更好加入到分类器的训练当中。其整体的模型见图1,首先支持集中有标签标记样本集和未标记补充样本集经过一个预训练好的特征提取网络,得到各自对应的特征映射。其中含标签的样本将直接参与线性分类器的训练以得到一个初步的分类器模型,然后使用该分类器模型对未标记样本进行标签预测,得到对应的假标签 (pseudo label)。这些含假标签的样本集将通过实例可信度推断模块进行筛选,得到置信度高的假标签样本数据,并将这些数据添加到线性分类器模型的训练数据中再次训练分类器。以此不断往复训练、推断、添加,最终训练出一个拟合能力和泛化能力更强的线性分类器。最后,便可利用该训练好的分类器对询问集数据进行标签预测,完成小样本分类任务。
3 关键技术
3.1 实例可信度推断
对于一个线性回归问题而已,有一个概念叫做并发参数,即除了模型自身的结构化参数外,还存在着与数据相关的并发参数。那么,对于本文使用的线性分类器而言,其模型如下:
y i = x i ⊤ β + γ i + ϵ i y_{i}=\mathbf{x}_{i}^{\top} \beta+\gamma_{i}+\epsilon_{i} yi=xi⊤β+γi+ϵi
这里的 γ i \gamma_{i} γi便是该线性分类器中与训练样本相关的并发参数,那么我们把这个并发参数也当成需要优化的参数,继续分类器接下来的训练。优化问题如下:
( β ^ , γ ^ ) = arg min β , γ ∥ Y − X β − γ ∥ F 2 + λ R ( γ ) (\hat{\beta}, \hat{\gamma})=\underset{\beta, \gamma}{\arg \min }\|Y-X \beta-\gamma\|_{F}^{2}+\lambda R(\gamma) (β^,γ^)=β,γargmin∥Y−Xβ−γ∥F2+λR(γ)
其中 R ( γ ) R(\gamma) R(γ)为对该并发参数的正则项。令右边为函数 L L L,即有
L ( β , γ ) = ∥ Y − X β − γ ∥ F 2 + λ R ( γ ) L(\beta, \gamma)=\|Y-X \beta-\gamma\|_{F}^{2}+\lambda R(\gamma) L(β,γ)=∥Y−Xβ−γ∥F2+λR(γ)
将其对 β \beta β求偏导,并令 ∂ L ∂ β = 0 \frac{\partial L}{\partial \beta}=0 ∂β∂L=0,解得理论上的 β ^ \hat{\beta} β^