
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)
本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进:论文还探讨了Transfusion模型的不同变体,包括使用不同大小的图像补丁、不同的编码/解码架构(线性层与U-Net块),以及限制图像噪声的程度,以提高特定任务的性能。这允许图像内的每个补丁能够相互注意,同时只能注意序列中先前出现的文本或图像补丁。




















