论文收录于 AAAI2021
论文地址:https://arxiv.org/abs/2012.08733v2
动机
利用伪标签聚类容易产生错误的或噪声标签。
思路
提出一个探索样本不确定性的方法——在mean teacher输出中,如果是错误的伪标签,两个模型的输出一致性比较低,因此用这个一致性来衡量一个不确定性,从而对损失进行一个加权。(一致性低的,对损失的权重就低一些,因为很可能是错误的聚类标签)
这个图的含义:用 mean teacher 模型输出的特征不一致性来衡量所谓的不确定性。纵坐标是图片数量,横坐标的不确定值表示两个输出特征的不一致性。如果目标域中样本聚类不正确,并且不一致性比较高(如0.4),那么 student 和 teacher 的输出特征不一致性的数目比例要更高。
目的:(1)把容易产生错误伪标签的样本识别出来;(2)减轻这些错误聚类样本的影响。
方法总结:伪标签错的样本,经过mean teacher得到的输出具有不确定性(特征不一致性)更高。
方法
uncertainty-guided noise resilient network(UNRN)
总思路仍然是三个:源域预训练,目标域聚类,微调网络。
上面的是teacher,下面是student,聚类用的是teacher。
基于聚类的baseline(SBase)
1、源域预训练(model pre-training)
源域输入到两个网络,teacher部分经过不确定性计算,student部分直接计算一个ID Loss
2、目标域聚类
3、共同微调
(1)没有仅用伪标签,而是计算了每个源域类别的类中心特征,它作为分类的一个权重。
(2)memory bank
目的:收集足够多的负样本,让类内更靠近,类间更远
方法:包括N个目标域实例的embedding(带有伪标签)和所有源域类别的类中心embedding(作为negative样本,有Cs个),这样,对于一个目标域的query a,假设其正样本有Na+个,则负样本有 N-(Na-)+Cs 个。最后采用 self-paced 加权方式,给难例负样本更大权重,以此更新网络。
基于不确定性的优化
本质上是“投票”思路,每个类中心当作权重
并没有直接用 teacher 和 student 输出的 feature 做距离度量,因为这样没有考虑到目标域的全局分布。
受启发于:软多标签——一个样本,给多个软标签,它们之间的不一致性用来挖掘和该样本很像的但不同id的难例样本。
方法:计算两个输出feature对于所有聚类中心特征(文中成为“参考人”)的相似度,获得软多类标签,然后计算KL散度。
最终优化过程:
把KL散度的输出 ui 取指数 exp(-ui),作为每个样本的 确定性参数。更新方法:对ID loss,如果确定性参数比较低,就乘上这个参数exp(-ui);对三元组损失,用正样本对和负样本对的确定性参数作为系数,而计算方法就是把正样本和anchor样本的确定性参数相加,同理负样本对;一致性损失是用输入样本和memory中的正样本对相似度和负样本对相似度,再乘上一个确定性系数。
此外还加了一个正则化损失:一个mini-batch取倒数