ICLR 2024 | DeepZero:首个零阶优化深度学习框架发布!

本文介绍了一项新的深度学习框架DeepZero,它通过改进的坐标梯度估计、零阶模型修剪策略和高效训练技术,成功扩展了零阶优化在深度模型训练中的性能。实验结果表明DeepZero在图像分类、黑盒防御和仿真耦合任务中表现出色,为零阶优化在复杂场景下的应用开辟了新途径。
摘要由CSDN通过智能技术生成

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

CVer祝大家除夕快乐!重磅福利!CVer学术星球春节优惠券来了!为了感谢大家的支持,现在赠送10张50元新用户优惠券(左图领取),10张20元老用户续费券(右图领取),龙年坚持分享更多更好的工作,寒假不停更!助力你的科研和工作!

0ff17f4c325828fab5ead5e912593afa.png

转载自:机器之心  | 作者:张益萌

本文是一篇关于提高零阶优化的扩展性的研究,代码已开源,论文已被 ICLR 2024 接收。

今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”,本文被 ICLR 2024 接收,代码已开源。

f2cf190396df1d875c9fa076291ec7a6.jpeg

68f6f374c40ad2af5046107e6309cbd7.png

  • 论文地址:https://arxiv.org/abs/2310.02025

  • 项目地址:https://www.optml-group.com/posts/deepzero_iclr24

1. 背景

零阶(Zeroth-Order, ZO)优化已成为解决机器学习(Machine Learning)问题的热门技术,特别是在一阶(First-Order, FO)信息难以或无法获得的情况下:

  • 物理学和化学等学科:机器学习模型可能与复杂的模拟器或实验相互作用,其中底层系统是不可求导的。

  • 黑盒学习场景:当深度学习(Deep Learning)模型与第三方 API 集成时,如针对黑盒深度学习模型的对抗性攻击和防御,以及语言模型服务的黑盒提示学习。

  • 硬件限制:用于计算一阶梯度的原理性反向传播(backpropagation)机制在硬件系统上实现深度学习模型时可能不受支持。

然而,目前零阶优化的可扩展性仍然是一个未解决的问题:其使用主要限于相对较小规模的机器学习问题,如样本级的对抗性攻击生成。随着问题维度的增加,传统零阶方法的准确性和效率会下降。这是因为基于零阶有限差分的梯度估计是一阶梯度的有偏估算,且在高维空间中偏差更加明显。这些挑战激发了本文讨论的核心问题:如何扩展零阶优化使其可以训练深度学习模型?

2. 零阶梯度估算:RGE 还是 CGE?

零阶优化器仅通过提交输入和接收相应的函数值与目标函数进行交互。主要有两种梯度估算方法:坐标梯度估算(Coordinate Gradient Estimation, CGE)和随机梯度估算(Random Gradient Estimation, RGE),如下所示:

c0c51b8d4a5c4b5e5832657d9a264e65.png

其中df8243668974ae03ca53a972aa25cb3d.png表示对优化变量f76de1156b6ae33cf4931d88435df37b.png(例如,神经网络的模型参数)的一阶梯度的估算。

在(RGE)中,e8804e00aae204804d1b404f2ed075f0.png表示随机扰动向量,例如,从标准高斯分布中抽取;6efcc43973c982ebb3b883ebe5ccb7af.png是扰动大小(又称平滑参数);q 是用于获得有限差分的随机方向数。

在(CGE)中,39f4243e84bfa0ad7975352826a62850.png表示标准基向量,a550a518355bc0afdcfe1b49fe269243.png提供了cab728b7d724a4f6cbbfedf2daa351bb.png在对应坐标的偏导数的有限差分估计。

与 CGE 相比,RGE 具有可以减少函数评估次数的灵活性。尽管查询效率高,但 RGE 在从头开始训练深度模型时是否能提供令人满意的准确性仍不确定。为此,我们进行了调查,其中我们使用 RGE 和 CGE 对不同大小的小型卷积神经网络(CNN)在 CIFAR-10 上进行了训练。如下图所示,CGE 可以实现与一阶优化训练相当的测试精度,并显著优于 RGE,同时也比 RGE 具有更高的时间效率。

c54968a7bdb22699e7388bd942aa5c5a.png

基于 CGE 在准确性和计算效率方面相对于 RGE 的优势,我们选择 CGE 作为首选的零阶梯度估计器。然而,CGE 的查询复杂性仍然是一个瓶颈,因为它随模型大小增加而扩大。

3. 零阶深度学习框架:DeepZero

据我们所知,之前的工作没有展示出 ZO 优化在训练深度神经网络(DNN)时不会显著降低性能的有效性。为了克服这一障碍,我们开发了 DeepZero,一种原理性零阶优化深度学习框架,可以将零阶优化扩展到从头开始的神经网络训练。

a) 零阶模型修剪(ZO-GraSP):一个随机初始化的密集神经网络往往包含一个高质量的稀疏子网络。然而,大多数有效的修剪方法都包含模型训练作为中间步骤。因此,它们不适合通过零阶优化找到稀疏性。为了解决上述挑战,我们受到了无需训练的修剪方法的启发,称为初始化修剪。在这类方法中,梯度信号保留(GraSP)被选用,它是一种通过随机初始化网络的梯度流识别神经网络的稀疏性先验的方法。

b) 稀疏梯度:为了保留训练密集模型的准确性优势,在 CGE 中我们结合了梯度稀疏性而不是权重稀疏性。这确保了我们在权重空间中训练一个密集模型,而不是训练一个稀疏模型。具体而言,我们利用 ZO-GraSP 确定可以捕获 DNN 可压缩性的逐层修剪比率(Layer-wise Pruning Ratios, LPRs),然后零阶优化可以通过不断迭代更新部分模型参数权重来训练密集模型,其中稀疏梯度比率由 LPRs 确定。

c) 特征重用:由于 CGE 逐元素扰动每个参数,它可以重用紧接扰动层之前的特征,并执行剩余的前向传播操作,而不是从输入层开始。从经验上看,带有特征重用的 CGE 在训练时间上可以实现 2 倍以上的减少。

d) 前传并行化:CGE 支持模型训练的并行化。这种解耦特性使得通过分布式机器扩展前向传播成为可能,从而显著提高零阶训练速度。

4. 实验分析

a) 图像分类

在 CIFAR-10 数据集上,我们将 DeepZero 训练的 ResNet-20 与两种通过一阶优化训练的变体进行比较:

(1)通过一阶优化训练获得的密集 ResNet-20

(2)通过一阶优化训练通过 FO-GraSP 获得的稀疏 ResNet-20

如下图所示,尽管在 80% 至 99% 的稀疏区间中,与(1)相比,使用 DeepZero 训练的模型仍存在准确度差距。这突出了 ZO 优化用于深度模型训练的挑战,其中高稀疏度的实现是被期望的。值得注意的是,在 90% 至 99% 的稀疏区间中,DeepZero 优于(2),展示了 DeepZero 中梯度稀疏性相对于权重稀疏性的优越性

7f2e947d515544f4b9fe42ea95aad562.png

b) 黑箱防御

当模型的所有者不愿意与防御者共享模型细节时,会出现黑盒防御问题。这对于使用一阶优化训练直接增强白盒模型的现有鲁棒性增强算法构成了挑战。为了克服这一挑战,ZO-AE-DS 被提出,在白盒去噪平滑(Denoised Smoothing, DS)防御操作和黑盒图像分类器之间引入了自动编码器(AutoEncoder, AE),以解决 ZO 训练的维度挑战。ZO-AE-DS 的缺点是难以扩展到高分辨率数据集(例如,ImageNet),因为使用 AE 会损害输入到黑盒图像分类器的图像的保真度,并导致较差的防御性能。相比之下,DeepZero 可以直接学习与黑盒分类器集成的防御操作,无需自动编码器。如下表所示,就认证准确率(Certified Accuracy, CA)而言 DeepZero 在所有输入扰动半径上始终优于 ZO-AE-DS。

dd1f959ff4bc5a8150fcb6537a0dc653.png

c) 与仿真耦合的深度学习

数值方法在提供物理信息模拟方面不可或缺,但它们自身存在挑战:离散化不可避免地产生数值误差。通过与迭代偏微分方程(Partial Differential Equation, PDE)求解器的循环交互训练纠正神经网络的可行性,被称为” 求解器环路”(Solver-in-the-Loop, SOL)。虽然现有工作专注于使用或开发可微模拟器进行模型训练,我们通过利用 DeepZero 扩展了 SOL,使其能够与不可微或黑盒模拟器一起使用。下表比较了 ZO-SOL(通过 DeepZero 实现)与三种不同的可微方法的测试误差纠正性能:

(1) SRC(低保真模拟无误差纠正);

(2) NON(非交互式训练,使用预生成的低和高保真模拟数据在模拟循环外进行);

(3) FO-SOL(给定可微模拟器时,用于 SOL 的一阶训练)。

每个测试模拟的误差计算为与高保真模拟相比的纠正模拟的平均绝对误(MAE)。结果表明,通过 DeepZero 实现的 ZO-SOL 在只有基于查询的模拟器访问权限的情况下依然优于 SRC 和 NON,并缩小了与 FO-SOL 的性能差距。与 NON 相比,ZO-SOL 的表现突显了在有黑盒模拟器集成时的 ZO-SOL 前景。

a463ae9a6ef08ab83b32acf5a144d3eb.png

5. 总结与讨论

这篇论文介绍了一个深度网络训练中零阶优化深度学习框架 (DeepZero)。具体来说,DeepZero 将坐标梯度估计、零阶模型修剪带来的梯度稀疏性、特征重用以及前传并行化整合到统一的训练流程中。利用这些创新,DeepZero 在包括图像分类任务和各种实际黑箱深度学习场景中表现出了效率和有效性。此外,还探索了 DeepZero 在其他领域的适用性,如涉及不可微物理实体的应用,以及在计算图和反向传播的计算不被支持的设备上进行训练。

作者介绍

张益萌,密歇根州⽴⼤学 OPTML 实验室, 计算机博士在读, 研究兴趣⽅向包括 Generative AI,  Multi-Modality,  Computer Vision,  Safe AI,  Efficient AI。

CVer祝大家除夕快乐!重磅福利!CVer学术星球春节优惠券来了!为了感谢大家的支持,现在赠送10张50元新用户优惠券(左图领取),10张20元老用户续费券(右图领取),龙年坚持分享更多更好的工作,寒假不停更!助力你的科研和工作!

5ff04766e3bc1cdd1db02ad9453d296b.png

计算机视觉技术交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值