学习笔记:Learning from Noisy Labels with Distillation

摘要:

因为具有噪声标签的大量数据相对容易获得,所以从噪声标签学习的能力在许多视觉识别任务中非常有用。在传统意义上,标签噪声被视为统计异常值,并且已经提出了诸如重要性重新加权和自举之类的技术来缓解该问题。根据本文作者的观察,现实世界的噪声标签表现出作为真实标签的多模特性,而不是表现得像独立的随机异常值。因此提出了一个统一的蒸馏框架,使用“侧面”信息,包括知识图谱中的小清理数据集和标签关系,以“对冲”从嘈杂标签中学习的风险。与基于模拟标签噪声评估的传统方法不同,在体育,物种和人工制品中提出了一套新的基准数据集,以评估在实际环境中从嘈杂标签中学习的任务。实证研究证明了文中所提出的方法在所有领域的有效性。

一、相关工作

蒸馏:将从一个模型(专家或教师模型)学到的知识转移到另一个模型(轻量级学生模型),方法是将第一个模型(通常训练成本更高)产生的预测结果视为训练第二个模型(通常在更受约束的环境中训练)的“软目标”标签。

二、文中所使用的技术

假设有一个小型的干净数据集和一个大型的嘈杂数据集。小型干净数据集可以是现有的公共数据集,也可以是从部分干扰数据标记的数据集。目标是使用大量的噪声数据来增强小型干净数据集,以学习更好的视觉表示和分类。具体来说,提炼了从小型干净数据集中学到的知识,以方便从整个噪声数据集中学习更好的模型

1.所选数据集

收集了一套关于三个主题的新数据集:体育、物种和文物。包含来自 780个类别的总共 480K 张图像,并表现出上面提到的真实世界的标签噪声。基于维基百科在这三个主题之上构建了一个文本知识图谱,其中标签通过其定义相关联。

2.所选数据集的特殊之处 

1.我们的数据集包含从照片共享网站收集的真实标签噪声。

2.我们的数据集涵盖了视觉概念的三个领域,来自不同来源的不同程度的噪声(例如,文本歧义,如多义词,真实世界的用户对照片标记的行为等)。

3. 背景图像包含在评估集中。背景图像是指不属于所考虑的任何类的图像

三、总结

1.我们提出了一种基于蒸馏过程的新算法,从噪声数据中学习,并在某些条件下进行理论分析。

2.我们利用知识图谱来指导 蒸馏过程,以进一步“对冲”从嘈杂的标签中学习的风险。

3.世界标签噪音。我们广泛比较了我们收集了几个具有真实不同基线的新基准数据集,并表明我们提出的算法实现了最佳结果。

参考文献: Learning from Noisy Labels with Distillation

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值