无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

最新推荐文章于 2024-10-07 06:31:57 发布

AIzealot无

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量468

点赞数 3

分类专栏：跟无神读视觉论文跟无神学AI 文章标签：人工智能深度学习 stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72806612/article/details/142712364

版权

跟无神学AI 同时被 2 个专栏收录

40 篇文章 2 订阅

订阅专栏

跟无神读视觉论文

3 篇文章 0 订阅

订阅专栏

一、什么是ControlNet

ControlNet是一种能够控制模型生成内容的方法，能够对文生图等模型添加限制信息（边缘、深度图、法向量图、姿势点图等），在当今生成比较火的时代很流行。

这种方法使得能够直接提供空间信息控制图片以更细粒度地得到想要的生成图片，这种方法能够以一个端到端的方式来实现这个挑战。

先看看其主要方法，将原先的预训练网络冻结，然后做一个可训练的复制，再使用0初始化的1*1卷积（保证开始训练时没有额外噪声加入进来）将这个复制的网络连成一个支路。

二、相关工作

直接加数据集微调

存在问题：过拟合、模式崩溃、灾难性遗忘

超网：

最早在NLP中使用，训练一个小的循环神经网络去影响更大的网络，在生成对抗神经网络中被应用。

适配器：

主要用于将新的模块层嵌入预训练模型，以使得一个预训练模型去适应其他任务。

增加学习：

冻结原模型参数，使用已训练参数掩码、剪枝或强注意力增加一部分可以训练的参数，将两个网络的输出通过测量进行混合以增强模型的能力。

三、详细方法

首先，ControlNet也是在Stable Diffusion的潜在空间中进行的，所以上图处理的是严格按照StableDiffusion的流程，先将原始的条件控制图512*512的输入用一个4层的卷积神经网络编码到64*64的低维特征空间（即），

而图中的zt代表加了t次噪声的原始输入图片,

其总的损失函数和Diffusion类似：

即根据加噪后的图、加噪次数、输入的文本限制、限制图来预测加入的噪声

四、推理过程

SD对模型的输出采取了一个权重的策略：

即模型推理时会根据无条件限制推理、有条件限制推理进行一个加权和。

五、多种限制ControlNet模式

文中也给出了方案，只要将多个限制的ControlNet块加和到原始冻结的SD块的上即可，策略相同。

六、消融实验

主要是对是否复制原来的预训练块、卷积的初始化方式进行的对比试验。

在几种情境下进行了对比

七、指标对比

记得给个一键三连哦！

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。