038_SSS_Multi-Architecture Multi-Expert Diffusion Models

最新推荐文章于 2024-08-08 17:45:51 发布

Artificial Idiots

最新推荐文章于 2024-08-08 17:45:51 发布

阅读量639

点赞数

分类专栏：文章阅读笔记文章标签：深度学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/131158764

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

Multi-Architecture Multi-Expert Diffusion Models

在这里插入图片描述

1. Motivations & Arguments & Contributions

本文提出了一种在diffusion的不同步数采用不同的网络结构的方法提高生成质量和效率。

Diffusion模型需要大量的计算时间成本，改进方式主要有两个方面：
（1）减少采样步数
（2）降低网络规模
现有的工作更多的关注于减少采样步。本文旨在降低网络规模。

在这里插入图片描述

原始的Diffusion模型因为要建模不同步数，不同的噪声尺度下的特征，因此模型需要大量的参数。并且Diffusion更倾向于先学到低频的信息，然后逐渐学到高频的信息。

现有的降低网络规模的方法在所有的时间步仍然采用相同的网络结构，这就忽视了输入数据的频率分布在不同时间步是不同的。

本文的主要贡献：
（1）本文提出了一种新的在不同的时间步采用不同结构的专家网络的方法来提高Diffusion效率
（2）本文提出了一种新的网络结构MEME（Multi-architecturE Multi-Expert diffusion models）
（3）实验结果证明本文方法的有效性

2. Methodology

首先看不同时间步的输入图像的傅里叶频谱

在这里插入图片描述

（1）可以看出随着t增大会逐渐丢失高频信息。

（2）同时卷积网络更利于处理高频信息，而多头自注意力则更利于处理低频信息。

基于这两个思想，本文提出了一种新的网络结构

在这里插入图片描述

而iMixer通过将输入数据分为高频信息和低频信息，然后分别用卷积和多头注意力来处理从而达到更好的效果。

在这里插入图片描述

最后就是在不同的时间步设置不同的mixer中的特征维度。训练的时候，为了能让噪声尺度比较大的网络也能学到有意义的信息，作者没有让某个t区间的只能用固定的一个专家网络训练，而是在t比较大的专家网络也有一定概率用t比较小的数据训练。

3. Experiments

实验结果在FFHQ和CelebA上，采用MEME可以提高3.3倍的速度，并提高FID 0.62和0.37

Artificial Idiots

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
038_SSS_Multi-Architecture Multi-Expert Diffusion Models

本文提出了一种在diffusion的不同步数采用不同的网络结构的方法提高生成质量和效率。Diffusion模型需要大量的计算时间成本，改进方式主要有两个方面：（1）减少采样步数（2）降低网络规模现有的工作更多的关注于减少采样步。本文旨在降低网络规模。原始的Diffusion模型因为要建模不同步数，不同的噪声尺度下的特征，因此模型需要大量的参数。并且Diffusion更倾向于先学到低频的信息，然后逐渐学到高频的信息。
复制链接

扫一扫

专栏目录

Artificial Idiots

博客等级

码龄6年

60
原创

90
点赞

210
收藏

89
粉丝

关注

私信

热门文章

分类专栏

最新评论

李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_45522297: 为什么我按照上面的三个步骤安装，就是用不了mxnet呢？每次提醒OSError: libcudnn.so.7: cannot open shared object file: No such file or directory
李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下
李沐《动手学深度学习》学习笔记（6）第一章预备知识第四节微分
WS_Change: 请问博主，这个f'h={h:.5f}是什么意思
005_SS_ Palette Image-to-Image Diffusion Models
道尔先生: 最后这个金色字体看瞎我眼

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。