彩票票假设:寻找稀疏、可训练的神经网络

这篇论文名为“可训练神经网络”,作者是 Jonathan Frankel 和 Michael Carbon。它是一篇关于神经网络训练成功的经验性论文,研究的背景来自于神经网络剪枝技术。

论文指出,神经网络剪枝技术已经存在一段时间,可以将训练好的网络参数数量减少 90% 以上,从而减少存储需求,并提高计算性能或推理能力,同时不会影响准确性。

论文解释了剪枝的原理:在训练完一个完整的神经网络后,可以通过选择一些重要的权重来构建一个更小的子网络。常用的方法是选择权重绝对值最大的连接。剪枝类似于量化和蒸馏等技术,可以保留网络的准确性,同时减少网络的存储空间和计算量。

论文的核心观点是,在剪枝后,可以直接重新训练这个更小的子网络,并且在特定条件下,该子网络的性能甚至可以超越原始网络。这个条件是:将原始网络的初始权重传递给子网络。

论文的研究问题是:是否可以从头开始训练这个更小的子网络,并且仍然保持良好的性能?

神经网络表现良好的一个令人惊叹的证据:它们的随机初始化几乎肯定包含一个接近最佳的子网络,该子网络负责最终性能的大部分。https://arxiv.org/abs/1803.03635摘要:神经网络剪枝技术可以将训练网络的参数数量减少超过 90%,从而降低存储需求并提高推理的计算性能,而不会影响准确性。然而,当代经验表明,剪枝产生的稀疏架构从一开始就难以训练,这也会类似地提高训练性能。我们发现,标准的剪枝技术自然地揭示了子网络,其初始化使它们能够有效地进行训练。基于这些结果,我们阐述了“彩票假设”:密集的、随机初始化的、前馈网络包含子网络(“中奖彩票”),这些子网络 - 当单独训练时 - 在类似的迭代次数内达到与原始网络相当的测试精度。我们发现的中奖彩票赢得了初始化彩票:它们的连接具有初始权重,使得训练特别有效。我们提出了一种识别中奖彩票的算法,以及一系列支持彩票假设和这些偶然初始化重要性的实验。我们始终发现中奖彩票的规模不到 MNIST 和 CIFAR10 中几个完全连接和卷积前馈架构的 10-20%。超过这个尺寸,我们发现的中奖彩票比原始网络学习更快,并达到更高的测试精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值