如何用更智能、更简便的方法来训练神经网络？-CSDN博客

麻省理工学院的研究人员提出了“彩票假设”，指出大型神经网络中存在小型子网络，这些子网络可以从初始状态训练到与原网络相当的准确度。这一理论挑战了传统神经网络训练方法，并提供了一种更高效训练模型的可能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现实生活中，机器学习模型训练是数据科学中难度最大和计算成本最高的一种。几十年以来，在单一公理假设训练会覆盖整个模型的影响下，人工智能领域已经开发出了许多技术来提高机器学习模型的训练。

最近，来自麻省理工学院的人工智能研究员发表了一篇名为“Lottery Ticket Hypothesis（彩票假设）”的论文，在人工智能领域备受关注。该论文关注模型分支，挑战原先的假说并提出了一种更智能、更简便的方法来训练神经网络。

机器学习模型训练过程中，数据科学家往往需要在理论和现实解决措施的限制面前作出妥协。那些解决实际问题的神经网络架构看似为最佳方法，但是由于训练成本过高而不能充分执行下去。在起初训练时，神经网络一般需要大量数据集，同时需要昂贵的计算费用。而在此操作下，得出的是一张巨大的神经网络结构，其中神经层和隐藏层之间互相连接，从而需要通过技术优化来移除其中一些连接并调整模型的大小。

几十年来，有个问题一直困扰着人工智能研究员们，即在开始训练模型的时候，是否真的需要那些大型神经网络结构。当然，假使连接架构中每个神经元，也许可以实现完成最初任务的模型，但是其中带来的成本耗费是无法想象的。难道不能在一开始就组建更小更精简的神经网络架构吗？这正是“彩票假设“讨论的核心问题。

彩票假说

机器学习模型训练就像赌博游戏，通过购买所有可能中奖的彩票来博得大奖。但是如果我们知道如何中奖，难道就不能在挑选彩票的时候更加聪明一些吗？

在机器学习模型中，训练过程会产生与彩票同等大量的神经网络结构。在第一次训练后，模型需要进行技术优化，比如剪枝技术，在不损害神经网络性能的前提下删除神经网络中不必要的部分以缩小模型。这就像在彩票袋里搜寻那张中奖的彩票并且排除其他不会中奖的彩票一样。

通常情况下，剪枝技术能将神经网络结构的减少90%。自然而然，人们就会疑惑：如果可以减小神经网络的大小，为了使得训练更有效率，为什么不去训练更小的神经网络结构呢？

自相矛盾的是，机器学习方案的实践表明，修剪后的神经网络结构起初更难以训练，且训练的精度比起原神经网络更低。

麻省理工学院提出的“彩票假设“核心思想是大神经网络会包含一些较小的子网络，如果从起初就开始训练，子网络便可达到与原始网络比肩的准确率。研究报告具体内容概括如下：

彩票假设理论：随机初始化的密集神经网络包含一个被初始化的子网络。当单独训练该子网络时，它可以在训练之后，以最多相同的迭代次数匹配原始网络的测试精度。

在本论文中，子网络往往被指代为中奖彩票。

设定f(t, a, p) 形式的神经网络，其中t =训练时间，a =准确度，p =参数。现在考虑s是由修剪过程产生的原始结构的所有可训练神经网络的子集。“彩票假设”说明，某种程度上，一个F”（T”，A”，P”）€s其中T” <= T，A”> = a和p” <= P。简单来说，传统的剪枝训练技术揭示了比原始网络结构更小、更简单的神经网络结构。

如果“彩票假设“为真，显而易见接下去需要找到确认中奖彩票的策略了。这个过程包含训练和修剪的迭代过程，总结为以下五个步骤：

1. 随机初始化一个神经网络。

2. 训练神经网络直到其形成汇聚。

3. 对神经网络进行剪枝训练。

4. 要提取中奖彩票，请将网络剩余部分的权重重置为步骤（1）所示（训练开始前的初始值）。

5. 为了评估步骤（4）中产生的网络是否确实是中奖票，训练剪枝过且未经训练的网络并检查其汇聚行为和准确性。

整个流程可以进行一次或多次。在一次性剪枝训练中，神经网络训练为一次，对p%的神经网络进行修剪并且重置余留的权重。尽管一次性剪枝训练一定有效，但是在n轮中迭代时，“彩票假设“才能出现最好的结果；每轮剪枝训练在前一轮中余留p1 / n％的权重。然而，一次性剪枝训练通常产生非常可靠的结果，训练也不需要昂贵的计算成本。