AIGC实战——多模态模型DALL.E 2
0. 前言
DALL.E 2
是 OpenAI
设计用于文本生成图像的生成模型。该模型的第一个版本 DALL.E
于 2021
年发布,引起了对生成多模态模型的广泛关注。在本节中,我们将介绍该模型的第二个版本 DALL.E 2
,该模型于 2022
年发布,DALL.E 2
进一步促使我们了解人工智能 (Artificial Intelligence
, AI
) 解决多模态问题的能力。它不仅在学术上具有重要意义,同时迫使我们思考 AI
创造性过程中的角色问题,这种制造性问题一直以来被认为是人类独有的能力。
1. 模型架构
为了了解 DALL.E 2
的工作原理,我们首先必须了解其整体架构,如下图所示。
我们需要了解以下三个关键组件:文本编码器 (Text encoder
)、先验模型 (Prior
) 和解码