探索神经网络子空间：Learning Neural Network Subspaces

平依佩Ula

于 2024-06-18 09:43:20 发布

阅读量282

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00012/article/details/139763366

版权

探索神经网络子空间：Learning Neural Network Subspaces

在深度学习领域中，我们总是寻求更高效、更具泛化性的模型训练方法。最近的研究揭示了神经网络优化景观中的丰富性，即存在高精度的多样化路径和宽广的最优解区域。基于这些观察，Learning Neural Network Subspaces 的开源项目引入了一种新的方法，在单次训练过程中探索并利用这些特性。

项目介绍

这个项目由 Mitchell Wortsman 等人发起，提供了一个基于 PyTorch 的代码库，用于学习神经网络子空间（如线、曲线和简单xes），以便在保持与训练单个模型相当的计算成本的同时，找到多样化的解决方案。通过这种方法，可以构建出接近独立训练网络性能的集成模型，而无需额外的训练成本。

技术分析

项目的核心算法是通过对每个批次数据随机选择 α 来使用权重的线性组合进行前向传播，然后更新权重端点。关键在于实现一个自定义的层类 SubspaceConv，它能够根据 α 返回网络权重。例如对于线条，可以通过定义两个参数权重来实现：

class TwoParamConv(nn.Conv2d):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.weight1 = nn.Parameter(torch.zeros_like(self.weight))

    def initialize(self, initialize_fn):
        initialize_fn(self.weight1)

进而，LinesConv 类通过 get_weight 方法生成在线上的任意一点的权重。

应用场景

Learning Neural Network Subspaces 可广泛应用于各种场景，包括但不限于：

模型多样性增强：通过探索神经网络子空间，可以从单次训练中获取多样化的模型，用于集成学习。
性能提升：子空间中间点的模型通常具有更高的准确度、更好的校准性和对标签噪声的鲁棒性，可以替代传统的 Stochastic Weight Averaging 方法。
效率优化：相比于传统的方法，该方法可以在减少训练时间的同时获得接近多模型集成的性能。