对彩票假设的理解

主要内容:作者先通过随机剪枝会使网络训练的轮数上升,验证集loss上升,测试集准确度下降证明剪枝需要找到特定的子网络,作者在此基础上提出了彩票假设。
彩票假说:一个随机初始化的密集神经网络包含一个子网络,该子网络初始化后,在隔离训练时,经过最多相同次数的迭代训练后,可以与原始网络的测试精度相匹配。并且这样的子网络可以由标准剪枝技术发现,但是如果这些子网络重新初始化之后,训练,验证,测试性能将会下降。中奖的彩票需要特定的网络结构和初始化参数。猜想:在网络优化训练过程中,这些参数更容易被SGD激活,其他参数将无法被SGD激活优化(现有的想法都是通过剪枝去除无法优化的神经元,降低网络的复杂度,这符合奥卡姆剃刀原理,但是能否调整优化的方法激活更多的神经元,使网络复杂度上升,使更多的神经元能够产生作用)。
密集的、随机初始化的网络比稀疏的网络更容易训练,因为有更多的可能的子网,训练可以从其中恢复中奖彩票。神经网络优化的启示,SGD能获得一个比较好的结果是基于一个过参数化的网络,这是因为它们具有更多潜在中奖门票的子网络组合。那SGD是否有必要或足以让神经网络优化到特定的测试精度。
发现彩票的具体步骤:
一次剪枝:
随机初始化一个神经网络f(x;θ_0) (θ_0∼D_θ)。
对网络进行j次迭代训练,得到参数θj。 对θj中的参数p%进行修剪,创建一个掩模m。
将其余参数重置为其在θ_0中的值,创建中奖彩票f(x;m⊙θ_0)。
迭代剪枝:重复上述步骤n次
卷积网络:需要热身
本文贡献:
提高训练性能。既然中奖彩票可以从孤立的开始训练,希望我们能够设计出尽早寻找中奖彩票并进行修剪的训练方案。
设计更好的网络。中奖的彩票显示了稀疏架构和初始化的组合,这是特别善于学习的。我们可以从中奖的彩票中获得灵感,设计新的架构和初始化方案,具有相同的属性,有利于学习。我们甚至可以将在一个任务中发现的中奖彩票转移到许多其他任务中。
提高我们对神经网络的理论理解。我们可以研究为什么随机初始化的前馈网络似乎包含了中奖彩票,以及优化和泛化。
展望:
探索更有效的方法来发现中奖彩票,这将使在资源密集的环境下研究彩票假说成为可能。
尝试其他的剪枝方法,如结构化剪枝(它将产生为当代硬件优化的网络)和非大小剪枝方法(它可以产生更小的中奖彩票或更早地找到它们)。
中奖彩票的初始化使它们的性能与未修剪网络的性能相匹配,但它们的规模太小,而随机初始化的网络无法做到这一点。研究这些初始化的特性,这些特性与剪枝网络架构的归纳偏差一致,使这些网络特别善于学习。
探索为什么热身是必要的,以及识别中奖彩票的方案的其他改进是否可以避免这些超参数修改的需要。
补充知识:
结构化剪枝:直接去掉整个kernel的结构化信息;
非结构化剪枝:考虑每个kernel的每个元素,删除kernel中不重要的参数;也称为稀疏剪枝。
THE LOTTERY TICKET HYPOTHESIS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值