通过动态数据修剪加速深度学习

最新推荐文章于 2024-10-04 05:48:08 发布

prinTao

最新推荐文章于 2024-10-04 05:48:08 发布

阅读量282

点赞数

文章标签：深度学习人工智能算法

本文链接：https://blog.csdn.net/prinTao/article/details/131150695

版权

文章探讨了深度学习模型训练的高成本问题，提出动态数据修剪算法以减少训练时间和资源需求。与以往静态评分方法不同，该方法通过识别‘有时’样本并结合强化学习策略，实现了在大幅修剪数据集的同时保持甚至提高模型准确性。这种方法对于减少训练迭代次数和提高训练效率具有重要意义。

摘要由CSDN通过智能技术生成

深度学习的成功归功于在大量数据上训练大型、过度参数化的模型。随着这种趋势的继续，模型训练变得非常昂贵，需要访问强大的计算系统来训练最先进的网络。大量研究致力于通过剪枝和量化等各种模型压缩技术来解决每次迭代训练的成本问题。
针对迭代次数花费的精力更少。以前的工作，例如 forget scores 和 GraNd/EL2N scores，通过识别完整数据集中的重要样本并修剪剩余样本来解决这个问题，从而减少每个时期的迭代次数。
尽管这些方法减少了训练时间，但它们在训练前使用昂贵的静态评分算法。在考虑评分机制时，总运行时间通常会增加。
在这项工作中，我们通过动态数据修剪算法解决了这个缺点。令人惊讶的是，我们发现统一随机动态修剪可以在激进的修剪率下胜过之前的工作。我们将此归因于“有时”样本的存在——仅在某些训练时间内对学习决策边界重要的点。
为了更好地利用有时样本的微妙之处，我们提出了两种基于强化学习技术的算法来动态修剪样本并实现比随机动态方法更高的准确性。我们针对全数据集基线和 CIFAR-10 和 CIFAR-100 的先前工作测试了我们所有的方法，我们可以将训练时间减少多达 2 在这项工作中，我们通过动态数据修剪算法解决了这个缺点。我们的结果表明，数据修剪应该被理解为一个与模型训练轨迹密切相关的动态过程，而不是仅基于数据集的静态步骤。

介绍

越来越多的文献认识到现代深度学习 (DL) [ 3、12 ]在模型复杂性和数据集大小方面的巨大规模。DL 训练范例一次使用 GPU 集群和特殊加速器数天或数周。这种趋势阻碍了独立研究人员将最先进的技术应用于新的数据集和应用程序，甚至大型研究组织也以高昂的成本接受了这种方法。
目前接受的方法[ 8 ]针对的是训练期间评估模型的每次迭代惩罚；然而，在减少训练迭代总数上并没有付出太多努力。由于即使是简单的数据集[ 7 ]也需要数以万计的样本进行数百个时期，因此消除非必要的数据子集为提高效率提供了一个有希望的机会。

来自其他 DL 领域的工作表明，只有数据的子集会影响决策边界，并造成模型造成的大部分损失[ 1 , 14 ]。此外，课程学习[ 2 ]断言样本可以排序，这可能允许我们修剪冗余的“简单”样本。先前关于数据修剪的工作[ 14 , 10 ]利用此属性消除大部分数据集，而不会导致显着的性能损失。不幸的是，这些方法在训练之前运行他们的评分算法并且需要对数据集进行一次或多次传递。当我们包括对样本进行评分的成本时，总运行时间超过了进行一次常规训练运行所需的时间。这会阻止研究人员在新的非标准数据集上利用之前的工作。
在我们的工作中，我们在整个训练过程中动态选择固定检查点的数据子集。我们做出以下新的观察和贡献：

通过计算每次在所有评分检查点中选择每个样本的时间，我们发现数据集可以定性地分为三组——总是样本、从不样本和有时样本（见图1 ）。总是在几乎每个评分检查点都选择样本。同样，never 样本很少被选中。有时仅在某些检查点选择样本，并且它们的包含在不同的训练运行中变化很大。与之前的工作一样，静态剪枝方法可以始终识别或从不识别样本，但有时无法有效地定位样本。事实上，我们发现在每个检查点随机选择一个数据子集比静态基线更有效。

鉴于数据集的这种分组，我们设计了一种基于每个样本损失的动态评分机制。尽管评分更频繁，但我们的机制减少了包括评分成本在内的总运行时间，而之前的工作通常会增加它。此外，在激进的修剪率下，我们在 CIFAR-10、CIFAR-100 和 CIFAR-10 的综合不平衡变体上获得了更高的最终测试精度。

由于有时样本在训练运行中的重要性不同，我们注意到最佳动态评分选择与模型轨迹紧密耦合。因此，我们将数据修剪问题重新定义为决策过程。在这个镜头下，我们提出了我们评分机制的两种变体，它们借鉴了
ε 强化学习中的贪婪和置信上限 (UCB) 算法。通过这些额外的改进，即使数据集不平衡，我们也能以积极的修剪率获得更高的性能。