2023-9 通过关注最大的Losers来加速深度学习

原文标题:ACCELERATING DEEP LEARNING BY FOCUSING ON THE BIGGEST LOSERS

作者:Angela H. Jiang

摘要:

本文介绍了选择性反向支持(Selective-Backprop)技术,该技术通过在每次迭代中优先考虑高损失的示例来加速深度神经网络(dnn)的训练。select - backprop使用训练示例向前传递的输出来决定是使用该示例来计算梯度和更新参数,还是立即跳到下一个示例。通过减少计算成本高昂的反向传播步骤的数量,选择性反向支持加速了训练。

1 简介

在训练神经网络(例如,用于分类)时,计算工作量通常在训练示例之间平均分配,而不管示例是否已经以低损失得分,或者它们是否被网络的当前状态错误预测(Hinton, 2007)。随着训练的进行,网络开始准确地分类一些例子,特别是在数据集中表现良好的冗余例子。

受到hinge loss (Rosasco等人,2004)的激励,当一个例子被足够的边际正确预测时,它提供了零损失,本文介绍了SelectiveBackprop (SB),一种简单而有效的采样技术,用于在整个训练中优先考虑高损失的训练例子。

我们怀疑,并通过实验证实,低损失的例子对应于具有小范数的梯度,因此对梯度更新的贡献很小。因此,SelectiveBackprop使用前向传递期间计算的损失作为梯度范数的计算廉价代理,使我们能够决定是否应用更新,而不必实际计算梯度。选择性反向支持优先级梯度更新的例子,向前传递显示高损失,概率跳过向后传递的例子,显示低损失。

通过减少在低损耗示例上花费的计算量,select - backprop可以更快地达到给定的目标精度。示例的丢失顺序在整个训练过程中是不同的,并且随着选择性后退的变化变化更大。在经过一些训练后,一个模型可能会在给定的例子上产生相对较低的损失,但如果在几个阶段忽略它,在同一个例子上的损失就会逐渐增加(Hinton, 2007)。select - backprop基于最新的正向传递评估采样概率,确保其对网络性能的评估是过时的.

本文主要有三个方面的贡献:(1)设计和评估了用于深度学习的实用而有效的采样技术——选择性反向支持(Selective-Backprop)和过时的sb;(2)测量结果表明,与传统训练相比,select - backprop和Stale-SB分别将CIFAR10、CIFAR100和SVHN上的目标误差训练时间减少了3.5倍和5倍;(3)与(Katharopoulos & Fleuret, 2018)中引入的最先进的重要性抽样方法进行比较,表明SelectiveBackprop和Stale-SB将实现目标精度所需的训练时间减少了1.02-1.8x和1.3-2.3x。

2 相关工作

3 基于损失的样本选择性反向传播

 用损失的累计分布计算选择的概率。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值