像素空间文生图之Imagen原理详解

funNLPer

已于 2023-09-17 23:59:03 修改

阅读量339

点赞数

分类专栏： AI算法文章标签： Imagen stable diffusion AIGC

于 2023-09-09 10:37:41 首次发布

本文链接：https://blog.csdn.net/orangerfun/article/details/132646518

版权

AI算法专栏收录该内容

24 篇文章 25 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了Imagen模型的结构和工作原理，包括使用T5大语言模型进行文本编码、基础扩散模型中的classifier-free guidance和large guidance weight samplers（动态阈值策略）以及超分辨扩散模型的噪声增强和Efficient Unet设计。实验表明，这些创新技术有助于生成更高质量、细节丰富的图像，并在DrawBench等评估中展现出优秀效果。

摘要由CSDN通过智能技术生成

在这里插入图片描述

论文：Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
项目地址：https://imagen.research.google/
代码（非官方）：https://github.com/deep-floyd/IF
模型权重：https://huggingface.co/DeepFloyd/IF-I-XL-v1.0
🤗关注公众号 funNLPer 白嫖有用的知识🤗

介绍Imagen主要出于以下两点：

之前一直以为输入prompt的编码器用CLIP的text encoder会更好，毕竟图文语义已经对齐，后来发现imagen并没有使用CLIP的text encoder，而是直接使用了NLP中的大语言模型T5。仔细想了下无论是CLIP中的text encoer还是T5在训练阶段都是冻结的，是Unet来适配他们，所以之前有没有图文对齐貌似不是很重要
前面介绍的 Stable Diffusion 为了加快推理和节省计算资源是在Latent Space 上进行去噪，而Imagen是在像素空间。很多人直觉上都认为像素空间上进行去噪效果会更好，具体像素空间上去噪能否让生成的质量更好目前尚不清楚

基于以上两个问题，本人想