理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

原文:理解DALL·E 2, Stable Diffusion和 Midjourney的工作原理 - 知乎

【者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。

以下是译文,Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。

01 DALL·E 2及其背后的技术

DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。

一幅描述篮球运动员灌篮的油画,具有星云爆炸的效果 - 图片由DALLE 2创作

DALL-E 2主要由两部分组成——将用户输入转换为图像的表示(称为Prior),然后是将这种表示转换为实际的照片(称为Decoder)。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

其中使用到的文本和图像嵌入来自另一个叫做CLIP(对比语言-图像预训练)的网络,这也是由OpenAI研发的。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。

CLIP - 为图像返回最佳的文本

DALL-E 2的工作是训练两个模型。第一个是Prior,接受文本标签并创建CLIP图像嵌入。第二个是Decoder,其接受CLIP图像嵌入并生成图像。模型训练完成之后,推理的流程如下:

  • 输入的文本被转化为使用神经网络的CLIP文本嵌入。
  • 使用主成分分析(Principal Component Analysis)降低文本嵌入的维度。
  • 使用文本嵌入创建图像嵌入。
  • 进入Decoder步骤后,扩散模型被用来将图像嵌入转化为图像。
  • 图像被从64×64放大到256×256,最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型,其使用了CLIP ViT-L/14文本编码器,能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散 (diffusion)”的过程——从有噪声的情况开始,逐渐改善图像,直到完全没有噪声,逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 - 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model(LDM)的,LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前,让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型(Diffusion Models, DM)是基于Transformer的生成模型,它采样一段数据(例如图像)并随着时间的推移逐渐增加噪声,直到数据无法被识别。该模型尝试将图像回退到原始形式,在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源,而且由于序列化评估(Sequential Evaluations),推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性,Stable Diffusion将DM应用于强大的预训练自动编码器(Pre-trained Autoencoders)。

在这样的前提下训练扩散模型,使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点,显著提高视觉真实程度。在模型结构中引入交叉注意力层(cross attention layer),使扩散模型成为一个强大而灵活的生成器,实现基于卷积的高分辨率图像生成。

03 Midjourney及其是如何工作的

Midjourney也是一款由人工智能驱动的工具,其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。

夜晚的云端城堡,电影般的画面 - 图片由Midjourney生成

Midjourney也是一个人工智能图像生成工具,它通过输入文本和参数,并使用在大量图像数据上训练出的机器学习(ML)算法来生成独一无二的图像。

Midjourney目前只能通过其官方Discord上的Discord机器人使用。用户使用“/imagine”命令生成图像,并像其他AI图像生成工具一样输入命令提示。然后机器人会返回一张图片。

04. DALL·E 2, Stable Diffusion 和 Midjourney之间的比较

DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。当有两个以上的人物出现时,DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

而Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求,几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片,它似乎更像一幅画。

Stable Diffusion 是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

下面的prompt有助于了解每种模型的相似性和差异。

END

点点『在看』,科普火爆的文生图工具背后的技。

参考资料

发布于 2022-12-05 09:23・IP 属地北京

### Stable Diffusion 面试常见问题及答案 #### 1. **什么是Stable Diffusion?** Stable Diffusion 是一种基于深度学习的生成式人工智能模型,主要用于生成高质量的图像。它通过扩散过程逐步去除噪声并生成清晰的图片[^2]。 ```python import torch from diffusers import StableDiffusionPipeline model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png") ``` --- #### 2. **Stable Diffusion 的核心原理是什么?** Stable Diffusion 基于扩散模型(Diffusion Model),其主要思想是从高斯白噪声开始,逐渐去噪以生成目标图像。这一过程分为两个阶段:前向扩散(Forward Process)反向生成(Reverse Process)。 - 前向扩散:将输入数据逐步加噪直至变为纯噪声。 - 反向生成:利用训练好的神经网络预测每一步中的噪声,并将其移除,最终恢复原始图像。 --- #### 3. **如何优化Stable Diffusion 的推理速度?** 可以通过以下方法提升Stable Diffusion 的性能: - 使用混合精度计算(Mixed Precision Training),减少内存占用并加速运算。 - 利用TensorRT 或 ONNX Runtime 进行模型量化部署。 - 调整采样步数(Steps),降低质量损失的同时加快生成速度。 --- #### 4. **Stable Diffusion 其他生成模型的区别有哪些?** | 特性 | Stable Diffusion | DALL·E | MidJourney | |---------------------|--------------------------|----------------------|---------------------| | 开源状态 | 完全开源 | 封闭源码 | 商业化服务 | | 训练数据集规模 | 较小 | 大型专有数据集 | 秘密 | | 推理效率 | 中等 | 较慢 | 极快 | 上述表格展示了不同模型的特点对比。 --- #### 5. **在实际项目中应用Stable Diffusion需要注意哪些事项?** - 数据隐私保护:确保不泄露敏感信息或侵犯版权。 - 性能调优:针对具体应用场景调整参数配置,例如分辨率、Prompt权重等。 - 法律合规性:遵循当地法律法规关于AI生成内容的规定。 --- ### AI生成模型面试技巧 #### 如何准备? - 熟悉主流框架如PyTorch/TensorFlow及其生态组件[^1]。 - 学习经典算法理论基础,包括但不限于GANs,VQ-VAEs,Denoising Autoencoders等。 - 实践案例积累经验,尝试解决真实世界中的问题。 #### 技巧总结 - 明确岗位需求,针对性复习相关知识点。 - 展现解决问题的能力而非单纯记忆答案。 - 关注最新研究进展技术趋势。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值