由于深度神经网络的进步,文本到图像模型于 2010 年代中期出现。然而,早在 ChatGPT 出现之前,围绕生成式 AI 的讨论就随着文本到图像模型 OpenAI 的 DALL-E、Google Brain 的 Imagen 和 StabilityAI 的 Stable Diffusion 的出现而增长。这些生成式人工智能模型由于类似于真实照片和手绘艺术品而引起了人们的关注。
目录
- DeepFloyd IF
- Stable Diffusion v1–5
- OpenJourney
- DreamShaper
- Dreamlike Photoreal
- Waifu Diffusion
下面一起来认识一下热门的几个文生图开源大模型。
在 Stability AI 的支持下,DeepFloyd 研究小组的开源文生图模型 DeepFloyd IF 将逼真的视觉效果与语言理解相结合。它采用模块化设计,包括一个固定的文本编码器和三个相互连接的像素扩散模块。初始模块根据文本提示生成 64×64 px 的图像,随后的超分辨率模块生成的图像分辨率不断提高可以达到256×256 px 和 1024×1024 px。整个模型利用源自 T5 转换器的冻结文本编码器提取文本嵌入。然后在 UNet 架构中使用这些嵌入,并通过交叉注意力和注意力池进行增强。因此,该模型超越了现有模型,在 COCO 数据集上取得了令人印象深刻的 6.66 分的零镜头 FID 分数。
主要特点:
- 强大的图像生成能力:DeepFloyd IF可以根据文本描述生成高质量的图像。它可以捕捉文本中的细节,并将其转化为逼真的图像。
- 多样化的输出:DeepFloyd IF可以生成多种风格和质量的图像,满足用户的不同需求。它可以生成写实、卡通、抽象等各种类型的图像。
- 高效的训练:DeepFloyd IF使用先进的训练技术,包括大规模的数据集和分布式训练,使其在训练方面更加高效。
- 灵活的应用:DeepFloyd IF可以应用于各种场景,如创意设计、视觉内容生产、辅助创作等。它为用户提供了广泛的使用可能性。
- 持续优化:DeepFloyd IF的开发团队不断优化和改进模型,提高其性能和功能,以满足用户日益增长的需求。
潜在文本到图像模型Stable Diffusion v1-5将自编码器与扩散模型相结合,创造出逼真的照片级图像。该模型是在广泛的laion-aesthetics v2 5+数据集上进行训练的,并且在512×512像素的分辨率下进行了595,000次的微调,因此具有根据任何给定文本输入生成高度逼真图像的卓越能力。
与仅局限于固定的文本提示集不同,该模型拥有从广泛的潜在空间生成图像的灵活性。通过在大型图像数据集上的训练,该模型对图像特征有了更深入的理解,从而生成出更加栩栩如生的图像。
Stable Diffusion v1-5 可在 Diffusers 库和 RunwayML GitHub 存储库中访问。在这里查看一下。
Openjourney是一个免费的开源文本到图像模型,它生成的AI艺术风格类似于Midjourney,因为它是在超过12.4万张Midjourney v4图像的数据集上进行训练的。它是对Stable Diffusion的微调版。Openjourney由领先的提示工程网站PromptHero开发,是HuggingFace上第二受欢迎的文本到图像模型,仅次于Stable Diffusion。用户更喜欢Openjourney,因为它能够以最少的输入生成令人印象深刻的图像,并且它非常适合作为微调的基础模型。
基于扩散模型架构构建的Dream Shaper V7是非常热门的模型,它在LoRA支持和整体真实感方面进行了改进。它建立在V6版本的增强基础之上,V6包括增加了LoRA支持、总体风格改进,以及在1024像素高度下的更好生成效果(但使用此功能时需要谨慎)。
V7生成的图像具有逼真的照片级质量,同时还能通过booru标签增强动漫风格的生成。它还改善了低分辨率下的眼部表现,可以作为早期版本的"修复"。V3.32版本的"clip修复"效果可能与V3.31不同,建议在混合使用时使用V3.32。V7还涉及到了局部修复(inpainting)和外部扩展(outpainting)功能。
Dreamlike Photoreal 2.0是一个基于Stable Diffusion 1.5的超写实模型。由Dreamlikeart开发,您可以通过在提示中加入照片来增强生成图像的真实感。为了获得最佳效果,请使用非正方形的纵横比。对于肖像风格的照片,建议使用垂直纵横比,而对于风景照片,水平纵横比更合适。
这个模型是在768×768像素的图像尺寸上进行训练的,尽管它也能有效地处理768x1024px或1024x768px等更高分辨率。运行在服务器级别的A100 GPU上,它拥有4秒的平均生成速度,超过了8台RTX 3090 GPU的性能。它可以同时处理多达30张图像,并且可以并发生成4张图像,确保了高效的工作流程。
最后是Waifu Diffusion,这是Stable Diffusion模型1.4版本的精细调整版本(1.3版)。这个模型专注于生成逼真的动漫风格图像,以其丰富多彩和高质量的生成效果而备受赞誉。
该模型是在从 booru 站点获得的 680k 文本图像样本数据集上训练的。