彩票票假设：寻找稀疏、可训练的神经网络

最新推荐文章于 2024-09-17 02:13:06 发布

YannicKilcher

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量174

点赞数 2

文章标签：神经网络机器学习剪枝深度学习算法

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141179393

版权

这篇论文名为“可训练神经网络”，作者是 Jonathan Frankel 和 Michael Carbon。它是一篇关于神经网络训练成功的经验性论文，研究的背景来自于神经网络剪枝技术。

论文指出，神经网络剪枝技术已经存在一段时间，可以将训练好的网络参数数量减少 90% 以上，从而减少存储需求，并提高计算性能或推理能力，同时不会影响准确性。

论文解释了剪枝的原理：在训练完一个完整的神经网络后，可以通过选择一些重要的权重来构建一个更小的子网络。常用的方法是选择权重绝对值最大的连接。剪枝类似于量化和蒸馏等技术，可以保留网络的准确性，同时减少网络的存储空间和计算量。

论文的核心观点是，在剪枝后，可以直接重新训练这个更小的子网络，并且在特定条件下，该子网络的性能甚至可以超越原始网络。这个条件是：将原始网络的初始权重传递给子网络。

论文的研究问题是：是否可以从头开始训练这个更小的子网络，并且仍然保持良好的性能？

神经网络表现良好的一个令人惊叹的证据：它们的随机初始化几乎肯定包含一个接近最佳的子网络，该子网络负责最终性能的大部分。https://arxiv.org/abs/1803.03635摘要：神经网络剪枝技术可以将训练网络的参数数量减少超过 90%，从而降低存储需求并提高推理的计算性能，而不会影响准确性。然而，当代经验表明，剪枝产生的稀疏架构从一开始就难以训练，这也会类似地提高训练性能。我们发现，标准的剪枝技术自然地揭示了子网络，其初始化使它们能够有效地进行训练。基于这些结果，我们阐述了“彩票假设”：密集的、随机初始化的、前馈网络包含子网络（“中奖彩票”），这些子网络 - 当单独训练时 - 在类似的迭代次数内达到与原始网络相当的测试精度。我们发现的中奖彩票赢得了初始化彩票：它们的连接具有初始权重，使得训练特别有效。我们提出了一种识别中奖彩票的算法，以及一系列支持彩票假设和这些偶然初始化重要性的实验。我们始终发现中奖彩票的规模不到 MNIST 和 CIFAR10 中几个完全连接和卷积前馈架构的 10-20%。超过这个尺寸，我们发现的中奖彩票比原始网络学习更快，并达到更高的测试精度。