Joint Optimization Framework for Learning with Noisy Labels 2018
摘要:针对标签有噪声的数据集训练的网络性能下降问题,作者提出了一种联合更新网络参数和标签的方法。
问题:该文指出在噪声标签数据集训练DNN的主要问题是由于深度神经网络可以学习或者记忆任何训练数据集,意味着深度神经网络对噪声数据也是过拟合的。
作者发现高学习率抑制DNN的记忆能力,并阻止它完全拟合标签。因此提出假设即对于干净的标签损失函数应该小,对于噪声标签数据损失函数应该高
方法:1根据假设调整学习率以防止网络对错误伪标签过拟合,2通过多次输出,取平均预测值作为标签。3增加了两个损失项,一个用于防止开始所有样本被划分到一个类里,一个用于防止模型陷入局部最优解???
目标函数:
其中
L
c
\mathcal{L}_c
Lc为分类损失,该文使用的是KL散度,s是最后一层softmax层
L
p
\mathcal{L}_p
Lp阻止所有样本都归于一个类,(处理由于刚开始网络预测大多不准确,倾向于预测为同一类来减少损失带来的难以收敛的问题,即不鼓励将所有样本归于一个类)
其中,
p
j
=
1
/
C
p_j = 1/C
pj=1/C是类
j
j
j的先验概率分布, 训练数据
s
ˉ
(
θ
,
X
)
\bar{s}(\theta,X)
sˉ(θ,X)是通过对每个小批B进行计算得到的
更新的标签数据集由对输出概率取10次平均所得。
在采用软标签时,为了防止模型陷入局部最优解,从而避免了网络因导向弱而陷入局部最优,使用
L
e
\mathcal{L}_e
Le熵项,将每个软标签的概率分布集中到单个类中
更新方法:固定标签,用梯度下降更新网络参数,再固定参数,前向计算更新Y
根据验证集的精度确定超参数和学习率
Transductive Semi-Supervised Deep Learning using Min-Max Features 2018
TSSL的主要特征是无标签数据的标签作为优化变量,在训练过程中迭代更新。
传统地SSL和 TSSL方法普遍存在的两个问题
1 都假设训练样本的特征已知且固定,他们的准确率跟提供的特征高度相关,这需求使它们不易使用DCNN模型训练。因为在深度学习中,特征表示在训练过程中逐渐improved。
2 平等对待每一个未标记样本,使得模型学习过程容易受到异常值和不确定数据样本的影响
方法:使用置信度来减少伪标签数据的错误率,通过一个MMF正则项使类内距离紧凑,类间保持距离,还加了个一致性正则项RF
目标公式包含分类损失项和两个正则项:
分类损失项
其中
y
~
\tilde{y}
y~是预测标签,
r
i
r_i
ri是置信度估计。
对于已知标签
r
i
=
1
r_i=1
ri=1;对于无标签数据,根据直觉1)异常值和高度不确定性样本通常位于特征空间中稀疏区域; 2)密集地区的样本更有可能被分配正确的标签。
计算方法如下:
f
i
f_i
fi为学到的特征表示,
N
(
f
i
)
\mathcal{N}(f_i)
N(fi)指样本i的K近邻数据集
Min-Max Feature 正则项使同类的点间的距离更小,不同类的点间距离更大
其中当两个点标签一样时
δ
(
y
~
i
,
y
~
j
)
=
1
\delta(\tilde{y}_i,\tilde{y}_j)=1
δ(y~i,y~j)=1,不一样则为0,h是事先设定好的margin
Robust Feature正则项,即对同1样本增强后的数据要求其输出最小化
基于扰动的半监督聚类算法存在扰动偏差的问题,这意味着该模型容易证实之前的预测,抵制新的变化。
针对基于一致性正则化方法的半监督学习,一般由两个损失项一个是对标签信息的分类损失项,一个是对无标签信息的一致性损失项。如果模型的一致性损失超过分类损失,模型就不能学到新的知识,导致陷入退化解。现有方法通过ramp-up weights(动态权重逐渐增加一致性损失的占比)减少这种情况。2019
Mean teachers are better role models:
Weight-averaged consistency targets improve
semi-supervised deep learning results2017 代码
摘要 针对Temporal Ensembling方法在大数据集上用预测标签的指数移动平均作为目标更新缓慢的问题,作者提出使用模型权重来代替预测标签。
方法:在模型推理时加入噪声,用于产生准确率更好的标签。使用平均权重的模型作为老师模型,比直接使用学生最终权重的模型更精确
一个二元分类任务的草图,包含两个带标记的示例(大蓝点)和一个未带标记的示,该图演示未标记目标(黑色圆圈)的选择如何影响拟合函数(灰色曲线)。
图a 显示没有正则化的模型可以自由地拟合任何函数,可以很好地预测标记的训练示例
图b 显示用有噪声的标记数据(小点)(即加噪的标签数据)训练的模型可以学习对标记数据点给出一致的预测。
图c 小黑点为无标签数据的噪声数据,增加了平滑性,老师模型首先对标注的例子进行拟合,然后在学生模型的训练过程中保持不变??(生成伪标签中有不正确的,当过多权重用于伪标签时,不一致的损失会超过错误分类的损失,阻止模型学习新东西,即模型受确认偏差影响,可通过提高标签质量来减缓。作者提出两种方法1是表示的扰动需要谨慎选择而不是简单的噪声相加或者相乘2是教师模型谨慎选择而不是简单的复制学生模型。两种方法兼容)
图d 教师模型上的噪声在没有额外训练的情况下降低了目标的偏差。随机梯度下降的期望方向是向单个噪声目标(黑色小圆)的均值(黑色大圆)
图e 一组集成模型给出了一个更好的预期目标。Temporal Ensembling(没轮迭代预测均值)和作者提出的模型(在训练步骤上平均模型权重)使用这种方法
历史回顾:
Pseudo-Labeling and Confirmation Bias in Deep Semi-Supervised Learning [代码] (https://github.com/EricArazo/PseudoLabeling) 2019
摘要:确认偏差问题,一个简单的伪标签标记方法会过度拟合不正确的标签,可由混合增强和在小批量数据中加入一定量的标签样本减轻。
Learning with Pseudo-Ensembles