Cute idea！LeCun点赞，扩散模型跨界神经网络参数生成

最新推荐文章于 2024-09-22 22:53:38 发布

TechBeat人工智能社区

最新推荐文章于 2024-09-22 22:53:38 发布

阅读量1k

点赞数 29

分类专栏：技术文章文章标签：机器学习计算机视觉扩散模型生成模型

本文链接：https://blog.csdn.net/hanseywho/article/details/136390223

版权

技术文章专栏收录该内容

122 篇文章 5 订阅

订阅专栏

论文题目： Neural Network Diffusion
论文链接： https://arxiv.org/abs/2402.13144
代码仓库： GitHub - NUS-HPC-AI-Lab/Neural-Network-Diffusion: We introduce a novel approach for parameter generation, named neural network diffusion (\textbf{p-diff}, p stands for parameter), which employs a standard latent diffusion model to synthesize a new set of parameters

最近OpenAI提出的Sora视频生成模型引起了广泛的关注，其背后的扩散模型再一次向我们展示了强大的生成潜力。学术界正积极的探索扩散模型的能力边界，本文介绍一篇来自新加坡国立大学的尤洋团队、UC伯克利和Meta AI Research合作完成的文章。本文另辟蹊径，直接用扩散模型生成神经网络的参数，本文的方法非常简单，仅设计了一个自动编码器和一个标准的隐扩散模型。自编码器通过对已训练的网络参数子集提取隐层表示，然后将其送入到扩散模型中进行加噪去噪处理，最后再通过解码器生成新的网络参数子集。作者在多种架构和数据集上进行的实验表明，本文的扩散模型可以以较小的成本生成高质量的神经网络参数。

值得注意的是，Yann LeCun第一时间在社交媒体上对本文工作进行了转发和评论，他认为使用扩散模型来生成神经网络参数是一个非常有趣的想法。

目前，该工作受到了社区的广泛关注，在推特上的浏览量已经超过446K次，like数也超过了1.2K次，并且引起了学术界的激烈讨论。

01. 引言

扩散过程的思想最早起源于非平衡热力学，在2015年，Sohl-Dickstein等人[1]开始将扩散过程引入到图像生成中，其通过逐步消除输入中的噪声来复原出清晰的图像。近几年，扩散模型迎来了显著的发展，例如Guided Diffusion向我们证明，扩散模型在图像生成领域拥有超越GAN的能力，再后来出现的GLIDE、Imagen、DALL E-2和Stable Diffusion均能够生成照片级的逼真图像。OpenAI最新发布的Sora模型更是产生了涌现级的时空序列生成能力。

尽管扩散模型在视觉生成中取得了巨大成功，但其在其他领域的潜力尚未得到充分探索。本文作者认为，如果我们仔细观察神经网络的训练过程和扩散模型的扩散过程，可以发现，扩散图像生成与随机梯度下降（SGD）过程存在以下共同点（如上图所示）：

（1）神经网络训练和扩散模型的逆过程都可以看作是从随机噪声/初始化到特定分布的过渡。

（2）高质量图像和高性能参数均可以通过多次添加噪声退化为简单分布，例如高斯分布。

传统参数生成方法侧重于从先验和概率建模方面进行探索，例如使用随机神经网络和贝叶斯神经网络，本文引入了一种全新的参数生成方法，称为神经网络扩散（p-diff），其中p代表参数（parameters）。虽然参数生成与传统的视觉生成任务有本质上的区别，但本文提出的p-diff仍然能够良好的实现特定参数分布的生成。

02. 本文方法

本文的p-diff框架构成非常简单，其目的是从无序的随机噪声中生成高性能的模型参数，如下图所示，p-diff的pipeline由两个过程构成，分别是参数自动编码器和参数生成。首先给定一组已训练的模型，从中选择一部分参数子集并进行展平得到一维向量。随后引入一个自编码器从这些向量中提取隐层表示，并设置一个解码器从隐层特征出发重建原始参数。在参数生成过程中，作者引入了一个标准隐扩散模型（latent diffusion model，LDM）来从随机噪声生成隐层表示。

2.1 参数自动编码器

2.2 参数生成

03. 实验效果

3.1 对比实验和消融研究

本文的实验在多种标准的数据集和网络架构上进行，其中数据集包括MNIST、CIFAR-10/100、ImageNet-1K、 STL-10、Flowers、Pets 和 F-101，网络结构包括 ResNet-18/50、ViT-Tiny/Base 和 ConvNeXt-T/B，以保证实验的普适性和完善性。在实际训练时，自编码器和隐扩散模型均使用4 层 1D CNN 的编码器和解码器。在性能对比时，作者将原始模型中最好的验证精度标识为“original”，将原始模型的平均权重集成标识为“ensemble”。

上表展示了本文方法在8个数据集6个网络架构上的性能对比结果，每组数据的表示格式为“original / ensemble / p-diff”，从表中可以得到两个观察结果：

（1）在大多数情况下，p-diff取得了与两个基线相似或更好的结果。这表明p-diff可以有效地学习高性能参数的分布，并从随机噪声中生成优秀的模型。

（2）p-diff在各种数据集上始终表现良好，这表明本文方法具有良好的普适性。

上表展示了作者进行的消融实验结果，表（a）展示了不同训练数据规模（原始模型的数量）对p-diff性能的影响，可以发现，训练数据多少对模型最佳结果的性能差距很小。

为了评估p-diff在不同网络层数位置的生成效果，作者将p-diff应用到三种不同深度的BN层中，如上表（b）中所示，作者发现，p-diff在所有深度的BN层中均获得了比原始模型更好的性能。此外，作者还对训练自编码器时引入的噪声增强策略进行了消融研究，消融结果如上图（c）所示。

为了探究p-diff的背后的内在模式，作者设置了三个随机种子从头训练 ResNet-18 模型，并对其中不同层（Conv.-layer2和FC-layer18）的参数进行可视化，如上图所示，这些层之间确实存在特定的参数模式，通过对这些模式进行学习，p-diff得以生成高性能的神经网络参数。

3.2 p-diff是仅仅记忆了参数吗

虽然p-diff在模型精度方面已具有一定的优势，但是这些结果其是否只是通过记住训练集中原始模型的参数实现的。本文作者希望p-diff能够真正生成一些与原始模型分布不同的新参数。为了验证这一点，作者首先提出了一个量化指标来衡量两个模型参数之间的相似性，具体通过计算两个模型在错误预测结果上的IoU来实现。IoU 越高表明两个模型的预测之间的相似性越大。

上图（a）展示了四种相似性比较：1）原始模型之间的相似性； 2）p-diff模型之间的相似性； 3）原始模型和p-diff模型之间的相似性； 4) 原始模型和 p-diff 模型之间的最大相似度。可以看到，p-diff生成的模型之间的差异远大于原始模型之间的差异。这表明p-diff可以生成与其训练数据（即原始模型）表现不同的新参数。

此外，作者还将p-diff与微调和添加噪声后的模型进行了对比，上图（b）的结果表明，仅进行微调和添加噪声的模型性能很难超越原始模型。此外，微调或添加噪声的模型与原始模型之间的相似度非常高，这表明这两种操作无法获得新颖高性能的模型。

图（c）展示了原始模型与p-diff生成模型的隐层表示的分布情况（使用t-SNE算法进行降维），可以看到p-diff可以生成与原始模型分布相差较大的新参数，而普通的添加噪声的方法只能在原始模型的隐层表示周围进行插值。

04. 总结

本文提出了一种使用扩散模型生成神经网络参数的框架p-diff，p-diff可以从传统的SGD优化器得到的参数出发，生成具有较大差异的高性能网络参数，这一点与先前训练模型的过程有很大的差别，因而其能够始终相比原始训练数据实现相似甚至更强的性能。此外，本文作者也提到，由于网络参数是与图像视频性质不同的信号，因此必须谨慎考虑处理这种区别，虽然p-diff现在仍然无法生成现代规模的大模型参数，但是在训练算力焦虑笼罩的今天，这种想法非常振奋人心。我们期望更加优秀的扩散模型参数生成框架的出现。

参考

[1] Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. Deep unsupervised learning using nonequilibrium thermodynamics. In ICML. PMLR, 2015.

[2] Ho, J., Jain, A., and Abbeel, P. Denoising diffusion probabilistic models. NeurIPS, 33, 2020.

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区