c++ 记忆化搜索_ICML2020会议专辑 | 第四范式基于AutoML的深度网络记忆性自动化挖掘...

a49d8f2b73fe59f6f90b386bf47e1668.png

作者|让你更懂AI PaperWeekly

01 概述

样本选择方法是噪声标签鲁棒学习的常用方法。然而,如何正确地控制选择过程,使深度网络能够从记忆效应中获益是一大难题。本次工作中,受自动机器学习(AutoML)的成功启发,我们将此问题建模为一个函数逼近问题。具体来说,我们基于记忆效应的一般模式设计了一个特定领域的搜索空间,并提出了一种新的牛顿算法来有效地解决双层优化问题,并进一步对算法进行了理论分析,保证了算法对临界点的良好逼近。实验结果表明,该方法优于现有的噪声标签学习方法,并且比现有的 AutoML 算法有更高的效率。

350dc7a7255fbe3da99511c4679f8b89.png

论文作者:Quanming Yao[1], Hansi Yang [2], Bo Han, Gang Niu, James Kwok

论文地址:https://arxiv.org/abs/1911.02377

代码地址:https://github.com/AutoML-4Paradigm/S2E

招聘启事:http://www.cse.ust.hk/~qyaoaa/pages/job-ad.pdf

研究组介绍:http://www.cse.ust.hk/~qyaoaa/pages/group.html

02背景

深度网络在图像处理、语音识别、语言建模和推荐系统等多项任务中取得了巨大的成功,很大程度上在于拥有大量高质量的可用数据,但这在现实场景中很难实现。相反,许多大型数据集是通过众包平台收集或互联网抓取得来,获得的标签很嘈杂。

由于深度网络具有较大的学习能力,最终会过度匹配噪声标签,导致泛化性能较差。因此,抗噪的机器学习方法逐渐受到关注,并在医疗图像分类、人脸识别、目标检测等许多领域均得到应用(实例请参见代码地址)。为了减少噪声标签的负面影响,抗噪机器学习领域提出了许多方法,它们可以分为三大类。第一种方法基于对标签转换矩阵进行估算,然而,这可能导致含有噪声和无法处理的大量标签。第二种类型基于正则化方法,然而由于深度网络通常是过参数化,在足够的训练时间下,仍然可以完全记忆含噪声的数据。第三种方法是本文的重点,它基于在每个迭代中选择(或加权)可能干净的样本进行训练,通过降低训练数据的噪声,可以获得更好的性能。代表性的方法包括 MentorNet 和 Co-teaching [3](去噪原理如下图所示)。

具体地说,MentorNet 使用一个额外的网络来选择干净的样本来培训一个 StudentNet。Co-teaching 通过在培训期间同时维护两个具有相同架构的网络来改进 MentorNet,并且每个网络都使用来自另一个网络的小损失样本进行更新。

143eb3e3f18801800fbd5c2eab7a27a8.png

▲ Figure1.为何能用大损失衡量标签可能被污染的示意图

在样本选择中,一个核心问题是在每次迭代中选择多少个小损失样本。虽然丢弃大量样本可以避免使用噪声标签进行训练,但丢弃过多样本会导致准确度降低。Co-teaching 使用后发现,深度网络通常在过度拟合噪声样本之前学习简单的模式,这种记忆效应广泛存在于各种深度网络中。

因此,在训练的早期阶段,由于网络无法记忆噪声数据,Co-teaching 会减少很少的样本。随着训练的进行,网络开始记忆噪声数据。这种情况在 Co-teaching 中是可以避免的,方法是根据预先确定的时间表逐渐减少更多的样本。从经验上讲,这显著提高了网络在噪声标签上的泛化性能。然而,尚不清楚其人工设计的时间表是否“最优”。此外,该调度与数据无关,但对所有数据集都是相同的。手动为每个数据集找到一个好的时间表显然非常耗时而且不可行。

03 本次工作的方法

受 AutoML 成功启发,本文提出利用 AutoML 自动开发记忆效应。我们首先将制定学习描述为一个双层优化问题,类似于神经架构搜索(NAS)。基于深度网络共享学习曲线行为,设计了调度的搜索空间。这个空间是富于表现力的,但只有少量的超参数。然而,由于样本选择是一个离散算子,计算梯度非常困难。为了避免这一问题并进行有效的搜索,我们建议使用随机松弛和牛顿方法从模型和优化目标中获取信息。

从经验上看,该方法优于现有的方法,并且可以比其他的样本选择方法选择更高比例的干净样本。实验表明,本次工作选择的搜索空间是合适的,且提出的搜索算法比其余的 AutoML 搜索算法更快。

3.1 动机图示:普世的记忆性

当在有噪声的数据集上训练深度网络时,网络会出现所谓“记忆性”现象:在训练的初始阶段,网络会学到一些简单的模式,在验证集上的准确率随之上升;而随着训练过程继续进行,网络会逐渐“记忆”噪声样本,导致验证集上的准确率因过拟合而下降。上述现象在不同网络、数据集、噪声水平和优化器设置下均能观察到,具有普适性:

f6adcc1cba51a92397e299205fea45aa.png

受此启发,MentorNet 和 Co-teaching 提出了如下的抗噪训练方法:随着训练过程进行逐渐去掉每批中的大损失样本,因为当模型在验证集上准确率提升后,这些样本更有可能是噪声样本,而非模型错分的样本。

然而,已有工作均需要人工确定大损失样本移除比例的具体时间表,无法适用于多样的噪声数据集。因此,我们计划将 AutoML 引入抗噪机器学习领域,自动地选择大损失样本移除比例的时间表。尽管不同噪声数据集上的最佳时间表可能不同,但一般来说,一个较好的时间表应与验证集上准确率趋势刚好相反:当验证集上准确率提升时,网络具有更好的判别能力,此时大损失的样本更有可能是噪声样本,所以应当移除更多的大损失样本,反之亦然。而上图显示网络在验证集上的准确率会先上升,再下降,因此一个较好的时间表应具有先下降,再上升的趋势。

基于上述推理,本文将时间表的搜索范围限制为一组具有“先下降,再上升”趋势函数的线性组合,相关函数及其示意图如下:

72c314a9077ce27b739acf13c3dca0a0.png

a9914d28c72a1826e912d12188e69cc9.png

3.2 公式化AutoML目标

记网络权重为 w,使用的时间表为 R,我们的优化问题可以建模为如下的双层优化问题:

4b97e5974ccfe8d85f731eb34f3f7f51.png

其中分别表示在训练(带噪)/ 验证(无噪)集上的损失,F 为所有可能的时间表组成的集合。

然而,由于无法计算目标对 R 的导数,直接求解这个问题是十分困难的。为解决这一困难,本文提出对 R 进行随机松弛操作,在 R 上附加一个概率分布,并将优化目标由寻找一个较好的时间表转变为寻找一个更有可能抽取到较好时间表的概率分布,即优化在此概率分布下,用抽取到的时间表 R 训练网络在验证集上表现的期望,如下式所示:

2772ba53f5113c1f174bb3d9a91ad588.png

其中 x 为控制时间表 R 的参数,f(x)为使用这一时间表 R(x)在验证集上的表现,为随机松弛的概率分布。

3.3 快速Newton优化算法

已有使用随机松弛的 AutoML 算法均基于梯度下降或自然梯度下降,无法利用优化目标的高阶信息,具有收敛速度较慢、训练过程不稳定等问题。由此本文提出将 Newton 优化算法应用到随机松弛上,导出了上述随机松弛问题 Hessian 矩阵的一般形式,如下:

0e61cf0c685664368e7adb7f4fc25123.png

算法流程见下图(细节请参见论文)。

e0b0b44b6001978dd0317b9698343753.png

本文同时从理论上证明了,在梯度和 Hessian 矩阵可能出现一定偏差的情形下,同样可以保证优化过程收敛到稳定点(详见论文 Theorem 1)。

04 实验

4.1 基准标签噪声数据

该实验中,使用了三个流行的基准数据集:MNIST、CIFAR-10 和 CIFAR-100。接下来,添加了两种类型的标签噪声:

1. 对称翻转,它以相同的概率将标签翻转到其他不正确的标签上;2. 成对翻转,即翻转一对相似的标签,并使用相同的网络架构。

我们将 S2E 与以下最先进的方法进行比较:Decoupling、F-correction、MentoNet、Co-teaching、Co-teaching+、Reweight。

作为一个简单的基线,我们还与直接在全噪声数据集上训练的标准深度网络进行比较。所有实验重复五次,取平均结果。下图显示了测试精度的收敛性。可以看出,S2E 明显优于其他方法,并且更加稳定。

85b004f2b3233c2feeb28279574c7d8f.png

下图比较了 S2E 和 Mentonnet、Co-teaching 和 Co-teaching+ 的样本选择方法。

93ac8f07813b9abbdd792b02eb668b3c.png

可以看出,由 S2E 学习的 R(·)是特定于数据集的,而其他方法总是使用相同的 R(·)。此外,在噪声较大的数据上学习的 R(·)较小。因为较高的噪声水平意味着每个小批量中的干净样品(R(·)更小)。此外,R(·)下降的大损失样本比例大于潜在噪声水平。

由此看出,大损失样本通常具有较大的梯度,如果标签错误,可能会对模型产生重大影响。由于大损失样本不一定会因为模型的不完美而产生噪声,所以会丢弃更多的样本。另一方面,简单地丢弃更多的样本会导致精度降低。下图比较了 S2E 和其他比较方法的标签精度(即,选择后每个小批次中干净样品的比率)。可以看出,S2E 的标签精度一直是最高的。这表明,S2E 使用的训练样本更干净,从而产生更好的性能。

640a7005751bf0b440f9a52f144d0949.png

4.2 对比实验

在这个实验中,我们依旧使用 MNIST、CIFAR-10 和 CIFAR-100 数据集来研究不同的搜索空间设计。将 S2E 的搜索空间与Co-teaching 在指定空间比较,并与 Single 的单个基函数跨越的空间进行比较。在这里,我们展示了四个基函数的最佳性能;为了公平比较,本实验采用随机搜索。重复 50 次,取平均结果。

1a1a4cd2b8f30538c4d822aa5d9dcd6c.png

上图显示了不同搜索空间变量所获得的所有时期的最佳测试精度。Co-teaching 和 Single 的性能优于两种一般函数逼近法(RBF 和 MLP)。

58400d2aefcd382a4fe96b37f961730c.png

上图显示了在 CIFAR-10 数据集上由 MLP(其性能优于 RBF)获得的 R(·)(MNIST 和 CIFAR-100 的结果相似)。可以看出,这些形状通常遵循此前的假设,为支持这一假设提供了进一步的经验证据。S2E 所获得的性能仍然是最好的(即使这里只使用随机搜索)。这证明了所提出的搜索空间的表达性和紧凑性。

4.3 搜索算法

S2E 使用随机松弛和牛顿法作为搜索算法。在此,我们将研究其他基于梯度搜索算法的使用,包括梯度下降(Gradient Descent)、自然梯度下降(Natural Gradient Descent)、以及随机搜索、贝叶斯优化(Bayesian Optimization)、hyperband 等无导数搜索算法。实验在 CIFAR-10 上进行。

40cbc7a6638414cba2b1d8628304465f.png

上图显示了测试精度 w.r.t. 这类调用的数量。可以看出,与其他算法相比,使用 Hessian 矩阵的 S2E 是最有效的。

05 总结

本次工作利用深度网络的记忆效应,利用 AutoML 来解决带噪声标签的学习问题。首先根据学习曲线的观察值设计一个有表现力但紧凑的搜索空间,通过一种基于随机松弛和牛顿法的高效搜索算法,克服了计算梯度的困难,并允许将模型和优化目标的信息结合起来。

经试验表明,该方法的性能优于现有的方法,并且可以比其他的样本选择方法选择出更高比例的干净样本。

参考注释

[1] 姚权铭博士为第四范式资深研究员

[2] 杨瀚思为清华大学本科生,现为第四范式机器学习研究组实习生

[3] Co-teaching是本组2018年发表于NeurIPS的工作,为当年10大高引论文之一


99a3b65fdc1ab98b476e31ae58c03cd7.png

「华来知识」成立于2017年,孵化于清华大学智能技术与系统国家重点实验室,是一家技术领先的人工智能企业。公司专注于提供新一代人工智能人机交互解决方案,利用自身技术为企业打造由人工智能驱动的知识体系,借此改善人类生活。「华来知识」将持续为企业客户提供优质服务,助力企业在专业领域的人工智能应用,提供完善可靠高效的产品解决方案

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值