目录
论文标题
《RepFace: Refining Closed-Set Noise with Progressive Label Correction for Face Recognition》
第一章 背景介绍
1.1 面部识别的发展与挑战
近年来,面部识别(Face Recognition, 简称FR)因在安全、监控、移动设备解锁等领域的应用迅猛发展。驱动面部识别进步的三大关键因素是:
-
大规模的人脸数据集(如MS-Celeb-1M, VGGFace2)
-
强大的骨干网络(如ResNet, MobileNet, Vision Transformer)
-
优秀的判别性损失函数(如ArcFace, CosFace)
然而,随着数据集规模的扩展,标签噪声(Label Noise)问题也随之加剧,尤其是闭集噪声(Closed-Set Noise)。噪声会显著影响模型性能,因此需要有效的噪声处理技术。
说明:
标签噪声(Label Noise):就是图像被标错了类别。比如一张张三的照片,错误地标成了李四。
闭集噪声(Closed-Set Noise)是一种特殊的标签噪声,指的是:
图像虽然被标错了,但错标成了同一数据集里另一个人的身份。比如数据集里有张三、李四、王五,
张三的照片被错标成李四,
这就是闭集噪声(因为李四也在这个数据集中)。
第二章 标签噪声分类与处理方式
2.1 标签噪声分类
-
闭集噪声(Closed-Set Noise):图像被错误标注为数据集中其他已有的类别。
-
开集噪声(Open-Set Noise):图像的真实身份并不属于数据集中已有类别,但被错误归为某个已有类别。
2.2 噪声处理策略
两大主流方法:
-
噪声清理(Noise Cleaning):检测并剔除噪声样本。
-
标签修正(Label Correction):对噪声样本重新估计正确标签,使其继续参与训练。
现有问题:
-
针对开集噪声的方法多,但在实际中闭集噪声占多数,且影响更大。
-
现有闭集噪声方法(如BoundaryFace)依赖早期训练收敛,容易误判,无法有效处理模糊样本(Ambiguous Samples)。
说明:
模糊样本(Ambiguous Samples)
指的是介于干净样本和噪声样本之间的样本:
它们的特征和正确类别很接近,但又不是非常自信(不像干净样本那样高置信度)。
它们也不像明显噪声那样特别离谱,所以又不敢直接把它们当成噪声扔掉。
简单打个比方:
干净样本:自信满满,模型一眼认出来。
噪声样本:乱七八糟,模型认不出,明显是错的。
模糊样本:犹犹豫豫,模型觉得“好像对,但又好像有点不太对”。
更具体一点:
在论文里,作者用“正类中心”和“最近负类中心”的余弦相似度差
来衡量:
如果
< 0:是干净样本(靠近自己类别)
如果
>τ:是噪声样本(更接近其他类别)
如果 0<
<τ:就是模糊样本(两边都不太远,不确定)
为什么BoundaryFace搞不定模糊样本?
因为BoundaryFace的思路是:
要等模型很有区分能力后,直接判断哪个是噪声。
但模糊样本“半对半错”,它既不像干净样本那么自信,也不像噪声样本那么明显,所以BoundaryFace容易把它们误当成干净样本继续训练 ➔ 后面模型就越来越被污染。
本文RepFace是怎么处理模糊样本的?
✅ RepFace不会直接丢掉模糊样本。
✅ 它通过标签融合(Label Robust Fusion),把模型过去的预测结果和原标签融合,慢慢让模糊样本也能被正确利用。
第三章 本文提出的方法——RepFace框架
目标:
稳定早期训练,区分清晰、模糊和噪声样本,分别设计不同训练策略。
3.1 总体框架
RepFace方法主要包含四大模块:
-
ASC(Auxiliary Sample Cleaning)
-
样本划分(Sample Splitting)
-
模糊样本标签融合(Label Robust Fusion, LRF)
-
平滑标签修正(Smoothing Label Correction, SLC)
第四章 各模块详解
4.1 辅助样本清理(ASC)
目的:在训练初期,利用人为添加的辅助噪声样本,帮助模型识别真正的噪声样本。
步骤:
-
在每个小批量中随机选M个样本,赋予随机标签(Auxiliary Samples)。
-
计算这些辅助样本与其伪标签中心的余弦相似度。
-
设定阈值η,区分干净样本(cosθ ≥ η)和噪声样本(cosθ < η)。
-
筛除疑似噪声样本,仅用干净样本训练。
公式:
解释:
-
M:辅助样本数量(每次随机选的数量)
-
:第i个辅助样本和它随机标签中心之间的余弦相似度
-
:一个小的常数,用来稳定阈值,防止计算波动
-
:辅助样本的平均相似度,作为一个动态阈值标准
👉 作用:划定一条线,小于这条线的可能是噪声,大于这条线的可能是干净样本。
解释:
-
:当前真实样本与其真实标签中心的余弦相似度
-
:指示器函数
-
=1 ➔ 认为是干净样本
-
=0 ➔ 认为是噪声样本
-
👉 作用:根据刚才设定的阈值η,把真实样本分类为干净或噪声。
如果相似度比阈值高,就留下来训练;
如果相似度比阈值低,就当成噪声样本,屏蔽它对模型的影响。
4.2 样本划分(Sample Splitting)
依据:
用样本到正类中心与最近负类中心的余弦相似度差()划分:
公式:
含义:最近负类中心与正类中心的相似度差。
划分标准:
-
:干净样本
-
:模糊样本
-
:闭集噪声样本
4.3 模糊样本标签融合(LRF)
目的:充分利用模糊样本,避免直接使用错误标签。
方法:
-
采用记忆库(Memory Bank)累积每次模型对模糊样本的预测。
-
用过去的预测结果与真实标签进行融合,生成软标签(Soft Label)。
融合公式:
符号 | 代表含义 |
---|---|
融合后的软标签(soft label) | |
模型过去多次预测累计起来的概率分布(记忆库Memory Bank里存的预测) | |
原始的真实标签(one-hot形式,比如第3类就是[0,0,1,0,0,...]) | |
融合比例超参数,控制相信预测多少,相信真实标签多少(论文设置β=0.9) |
其中p是累计预测生成的软标签, 是真实标签。
4.4 平滑标签修正(SLC)
目的:为检测出的闭集噪声样本平滑修正标签,降低误判影响。
方法:
-
基于Sigmoid(
)计算平滑系数k。
-
将真实标签与最近负类标签按比例加权混合,形成软标签。
公式:
-
同时对损失函数也进行平滑处理。
第五章 实验部分
5.1 数据集
-
训练集:MS1MV2、CASIA-WebFace(有合成10%、20%的闭集噪声版本)
-
测试集:LFW、AgeDB、CFP-FP、IJB-B、IJB-C等主流基准数据集。
5.2 训练细节
-
主干网络:IR-ResNet50
-
损失函数基线:MV-Softmax
-
优化器:SGD
-
学习率调度:分阶段衰减
5.3 消融实验与超参数分析
-
τ阈值选择:最佳设为0.2
-
α参数(ASC中稳定阈值):最佳设为0.05
-
β参数(融合平衡系数):最佳设为0.9
-
各模块贡献验证:完整使用ASC+SLC+LRF效果最佳。
5.4 对比实验
-
在闭集噪声下:RepFace整体优于ArcFace、MV-Softmax、BoundaryFace等SOTA方法。
-
鲁棒性验证:在20%噪声数据上,RepFace性能下降更小,展现更强的抗噪声能力。
第六章 总结
RepFace提出了一个创新的闭集噪声处理框架,通过:
-
辅助噪声样本筛选
-
样本划分与分类训练
-
记忆式标签融合
-
平滑式标签修正
极大地提升了面部识别模型在噪声环境下的性能和鲁棒性,达到了多个基准测试的SOTA水平。