点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
当训练数据集有标签噪声时,我们通常用噪声转移矩阵来刻画一个训练数据点被错误标注的概率。准确地估计该矩阵对于带噪学习具有重要意义。传统的估计方法大多依赖于模型的预测值,从而找到一些模型能够以高置信度预测的样本,进而估计噪声转移矩阵。然而,寻找足够多的符合条件的样本是一件困难的事情。为了摆脱对模型预测的依赖,我们从表征(representation) 的角度出发,提出了一种基于表征的噪声转移矩阵估计方法。该方法的基本思想是:具有相似表征的数据点应该属于同一类别,即相同真实标签。标签噪声的存在使得我们观测到的相似表征的噪声标签可能不一致,而标签的一致性蕴含了噪声转移矩阵的信息。我们证明:仅比较至多三个相似表征的标签一致性就可以得到噪声转移矩阵的唯一真实解。该方法为噪声转移矩阵的估计提供了一个全新的视角,并有潜力与自监督等表征学习方法相结合。
本期AI TIME PhD直播间我们邀请到加州大学圣克鲁兹分校博士生——朱兆伟,为我们带来报告分享《基于表征的噪声转移矩阵估计方法》。
朱兆伟:
加州大学圣克鲁兹分校博士三年级学生。研究兴趣集中在弱监督学习、机器学习公平性、联邦学习等领域相关的理论及应用,比如,训练标签带有人为标注噪声时如何设计损失函数去抵消噪声影响,如何处理联邦学习中低质量、有系统误差的本地训练集。目前在ICML,ICLR,NeurIPS,ACM Sigmetrics,CVPR等会议,IEEE TWC,IEEE TPDS等期刊上发表多篇一作论文。
01
背 景
(1) 什么是噪声转移矩阵?
在深度学习的模型训练中,我们使用的数据集理想情况下它的标签是完全正确的,但是实际情况下,特别是人工标注