ControlNet多重控制功能推出，AI绘画进入导演时代！

李白人工智能实验室

已于 2023-03-13 10:01:54 修改

阅读量1.4k

点赞数 1

分类专栏： AI绘画文章标签：人工智能

于 2023-03-09 16:06:00 首次发布

本文链接：https://blog.csdn.net/picup1/article/details/129424865

版权

一、“不会开发游戏的AI工具制作者不是好博士”

去年DALLE2，Stable Diffusion等文-图底层大模型发布带动了应用层的发展，出现了一大批爆款产品，被认为是”AI绘画元年“。目光再转到今年，在隔壁ChatGPT风头一时无二的时候，ControlNet的出现再次把大家的注意力移到了AI绘画生成上面。

一、“不会开发游戏的AI工具制作者不是好博士”

在科普ControlNet之前，有必要先介绍一下他的作者。目前正在斯坦福读博的中国人张吕敏（Lvmin Zhang），2021年才毕业于苏州大学，并且在本科期间就发表了多篇ICCV，CVPR，ECCV等顶会著作。这些论文高度与绘画相关，他的Style2Paints甚至已经更新到第五版了。

很少人知道，他还在Unity上做了一款名为 YGOPro2 的TCG游戏，可见每一个学霸都是时间管理大师。

二、ControlNet出现的背景

时间再回到去年各种模型诞生初期，那时候图像生成只需要用户简单地输入文本(Prompts)就可以实现，这让普通人操作的难度大大降低。尤其是Stable Diffusion的出现，直接部署在家用电脑的同时又很快生成高质量图片。

但是伴随着普通用户的尝试，种种问题也随之暴露出来。首先由于扩散模型本身diversity很强，导致生成的图像往往不受控制（可控性低），常常无法满足需求，需要用户在三四十张生成的图片中挑选一张可用的（废片率高）。

提示词：一张精美的图片需要通过大量的关键词拼凑（多达四五十个单词），才呈现出一个相对比较好的表现形式：

对于刚接触AI绘画的普通人来说找到合适的关键词是面临的首要问题，其次很多我们常见的关键词如：建筑，宏大/精美等远远不如渲染配置参数词：“4K超清”，“高质量”，“阴影效果”表现效果好。可见单纯的关键词控制无法满足用户对精美细节的需要。而在成图的时候原生Stable-Diffusion 模型的瑕疵则更明显，比如著

最低0.47元/天解锁文章

李白人工智能实验室

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
ControlNet多重控制功能推出，AI绘画进入导演时代！

ControlNet是一种神经网络结构，通过添加额外的条件来控制扩散模型。ControlNet将网络结构划分为：1. 不可训练（locked）部分保留了stable-diffusion模型的原始数据和模型自身的学习能力。2. 可训练（trainable）部分通过额外的输入针对可控的部分进行学习，本质是端对端的训练。简单来说就是通过一些额外条件生成受控图像-在Stable Diffusion模型中添加与UNet结构类似的ControlNet额外条件信息，映射进参数固定的模型中，完成可控条件生成。
复制链接

扫一扫