从Stable Diffusion 3谈AI绘画，机器能理解艺术吗？

最新推荐文章于 2024-09-26 09:45:00 发布

爱绘画的彤姐

最新推荐文章于 2024-09-26 09:45:00 发布

阅读量850

点赞数 8

文章标签： stable diffusion AI作画人工智能人工智能作画 ai midjourney

本文链接：https://blog.csdn.net/A2421417624/article/details/136841761

版权

StableDiffusion3采用Sora架构，显著提升了AI生图质量，支持多主题提示和优化文字效果。文章介绍了AI绘画的工作原理，比较了VAE、GAN和扩散模型，以及StableDiffusion3在技术上的进步和安全措施。

摘要由CSDN通过智能技术生成

在过去一年多的时间里，以Stable Diffusion为代表的AI绘画是世界上最为火热的AI方向之一。近期采用了Sora同架构的Stable Diffusion3 横空出世，使得AI生图效果，再次到达全新里程碑。

那么，计算机为什么能进行绘画，AI绘画和常见的神经网络又有什么区别？

开讲！

Stable Diffusion 3

在 OpenAI 的 Sora 引起火爆关注的时候，生成式 AI 顶级技术公司 Stability AI 也发布了它们的重磅产品 ——Stable Diffusion 3。

Stable Diffusion 3采用了和sora一样的diffusion transformer 架构，在生图的质量上有了很大的进步，支持多主题提示，对于文字书写的效果也进行了优化，可以称之为目前最强大的文生图模型。Stability AI 表示，Stable Diffusion 3 是一个模型系列，参数量从 800M 到 8B 不等。这个参数量意味着，它可以在很多便携式设备上直接跑，大大降低了 AI 大模型的使用门槛。

下面是一些官方示例。

示例1 提示词：青蛙坐在20世纪50年代的一家餐厅里，穿着皮夹克，戴着礼帽。桌子上有一个巨大的汉堡和一个写着“青蛙星期五”的小牌子。

Stable Diffusion 3示例图图片来源https://stability.ai/news/stable-diffusion-3-research-paper

示例2 提示词：一个带有悬停文本的美丽像素男巫向导，悬停的文本上写着：Achievement unlocked : Diffusion models can spell now

Stable Diffusion 3示例图图片来源https://stability.ai/news/stable-diffusion-3-research-paper

示例3 提示词：一艘形状像椒盐卷饼的巨大外星飞船

Stable Diffusion 3示例图图片来源https://stability.ai/news/stable-diffusion-3-research-paper

按照prompt生成**指定文字****，**一直以来都是文生图模型的重点解决的问题，从上面的示例可以看出table Diffusion 3对于prompt的理解很好，可以正确的写出提示词要求的文字，而且画面写实程度非常高，远近位置和光影都显得十分自然。

关于Stable Diffusion 3的核心技术进展，CEO Emad总结了一份摘要：

◆采用了与Sora类似的Diffusion Transformer技术，并结合了**流匹配（Flow Matching）**等多项技术改进。

◆通过利用对Transformer的改进，不仅使得系统扩展性更强，还能处理多种类型的输入数据。

◆将以开源形式发布，通过预览版的测试来进一步提升系统的质量和安全性。

◆发布时，将包含一套完整的工具。

◆基于最新硬件技术打造的新平台，可以支持多种规模的版本。

**◆****支持生成视频、**3D以及更多类型的内容创作。

◆需要更多的GPU来实现更强大的计算能力。

不过，现在，Stable Diffusion 3 还没有全面开放，公布了论文但是权重还没有公布。团队提到，他们正在采取一些安全措施，防止不法分子滥用。

AI绘画的技术原理

Stable Diffusion 3可以根据提示生成如此逼真的图片，那么它是如何实现的呢，相比于传统的神经网络的训练又有什么不一样呢？

传统的图像生成程序需要根据随机数来生成图像，通常，这种随机数是一个满足标准正态分布的随机向量。这样，每次要生成新图像时，只需要从标准正态分布里随机生成一个向量并输入给程序就行了。

而在AI绘画程序中，负责生成图像的是一个神经网络模型。神经网络需要从数据中学习。对于图像生成任务，神经网络的训练数据一般是一些同类型的图片。比如一个绘制人脸的神经网络会用人脸照片来训练。也就是说，神经网络会学习如何把一个向量映射成一张图片，并确保这个图片和训练集的图片是一类图片。

可是，相比其他AI任务，图像生成任务对神经网络来说更加困难一点——图像生成任务缺乏有效的指导。在其他AI任务中，训练集本身会给出一个标准答案，指导AI的输出向标准答案靠拢。

比如对于图像分类任务，训练集会给出每一幅图像的类别；

对于人脸验证任务，训练集会给出两张人脸照片是不是同一个人；

对于目标检测任务，训练集会给出目标的具体位置。

然而，图像生成任务是没有标准答案的。图像生成数据集里只有一些同类型图片，却没有指导AI如何画得更好的信息。

为了解决这一问题，人们专门设计了一些用于生成图像的神经网络架构。图像生成模型是在不断演化的，从最早的VAE到风靡一时的GAN，到当今以Stable Diffusion为代表的王者Diffusion系列模型，那我们接下来介绍下不同模型的技术原理是什么。

**#**VAE — 打开生成模型的大门

VAE认为学习向量生成图像很困难，那就再同时学习怎么用图像生成向量。这样，把某图像变成向量，再用该向量生成图像，就应该得到一幅和原图像一模一样的图像。

每一个向量的绘画结果有了一个标准答案，可以用一般的优化方法来指导网络的训练了。VAE中，把图像变成向量的网络叫做编码器，把向量转换回图像的网络叫做解码器。其中，解码器就是负责生成图像的模型。

VAE算法示意图图片来源知乎@OpenMMLab 技术客栈

VAE不仅除了应用在压缩、去噪和生成新的图像也可以应用在图像分割上，例如自动驾驶的道路检测。但VAE生成图像存在局限性，生成图像的质量不高，存在模糊和不真实。

**#**GAN — 创建“以假乱真”的新数据

GAN的想法是，既然不知道一幅图片好不好，就干脆再训练一个神经网络，用于辨别某图片是不是和训练集里的图片长得一样。

生成图像的神经网络叫做生成器，鉴定图像的神经网络叫做判别器。两个网络互相对抗，共同进步。

Gan算法示意图图片来源知乎@OpenMMLab 技术客栈

GAN包含了两个模型，生成模型（Generator)和判别模型（Discirminator）。给生成模型随机输入噪声，生成图片；给判别模型输入真实数据和生成的图片，判别生成的图片是真的还是假的。

刚开始生成器生成的图片给判别器，判别器一看就是假的，打回去让生成器重新生成，同样判别模型也要提升自己的判别水平，经过无数次的对抗，直到生成模型生成的图片骗过判别模型。GAN的应用场景非常广泛，在图像生成，生成不存在的人物、物体、动物；图像修复、图像增强、风格化和艺术的图像创造等。

**#**Diffusion — 图像生成模型的皇冠

一直以来，GAN的生成效果较好，但训练起来比VAE麻烦很多。扩散模型则和GAN一样强大同时训练比较简单。扩散模型生成图片的过程可以理解为做石雕的过程，从一块石头经过不断的雕刻变成一件艺术作品，从一个噪点图像不断去噪生成一张真实图像。

扩散模型生成示意图图片来源知乎@zhiyi任

扩散模型是一种特殊的VAE，其灵感来自于热力学：**一个分布可以通过不断地添加噪声变成另一个分布。**放到图像生成任务里，就是来自训练集的图像可以通过不断添加噪声变成符合标准正态分布的图像。

从这个角度出发，我们可以对VAE做以下修改：

（1）不再训练一个可学习的编码器，而是把编码过程固定成不断添加噪声的过程；

（2）不再把图像压缩成更短的向量，而是自始至终都对一个等大的图像做操作。解码器依然是一个可学习的神经网络，它的目的也同样是实现编码的逆操作。不过，既然现在编码过程变成了加噪，那么解码器就应该负责去噪。而对于神经网络来说，去噪任务学习起来会更加有效。因此，扩散模型既不会涉及GAN中复杂的对抗训练，又比VAE更强大一点。

具体来说，扩散模型由正向过程和反向过程这两部分组成，对应VAE中的编码和解码。

在正向过程中，输入 X0会不断混入高斯噪声。经过 T次加噪声操作后，图像 XT 会变成一幅符合标准正态分布的纯噪声图像。

而在反向过程中，我们希望训练出一个神经网络，该网络能够学会 T 个去噪声操作，把 XT还原回 X0 。

网络的学习目标是让 T 个去噪声操作正好能抵消掉对应的加噪声操作。训练完毕后，只需要从标准正态分布里随机采样出一个噪声，再利用反向过程里的神经网络把该噪声恢复成一幅图像，就能够生成一幅图片了。

扩散模型原理示意图图片来源知乎@zhiyi任

总结

从2019年吴恩达和杰夫安迪训练了当时最大的深度学习模型，生成一张模糊猫开始，到现在Stable Diffusion 3的发布，AI绘画取得了惊人的发展，画质不断提高，对提示词的理解也在不断加深。Stable diffusion系列的开源不仅加快AI绘画技术的发展也让这项技术得以快速普及和应用。相信未来会有越来越多的开发者贡献出理解语义更强、更加精准可控以及运算速度更快的AI绘画模型。

参考资料:

https://baijiahao.baidu.com/s?id=1791658343633432884
https://stability.ai/news/stable-diffusion-3-research-paper
https://zhuanlan.zhihu.com/p/632230369
https://zhuanlan.zhihu.com/p/638442430

写在最后

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。