text-to-image共同套路

纯真.

于 2023-08-11 00:28:21 发布

阅读量202

点赞数 2

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53237633/article/details/132221951

版权

Stable Diffusion

架构

主要分为三个模块，对于text encoder模块是输入一段文字，而后输出一串向量。第二个部分是Generation Model，这里使用的大多是DM，吃一个噪声以及文字的encoder产生一个中间产物，中间产物是一个图片被压缩后的版本。最后是套一个Decoder，把中间产物decode而后产生图片。三个模块是分别练好的，然后再组合起来的。
在这里插入图片描述
下面来看Stable Diffusion的结构图，右侧部分是一个Encoder，他的输入是一些文字或图片等，内部生成器是一个DM，左侧是一个解码器。
DALL-E也是一样的套路。

Imagen套路其实也是一样的。

文字Encoder

使用的技术就是GPT或者BERT，文字的Encoder对于结果影响还是比较大的。从下图可以看出，文字Encoder的大小对于结果的影响比较大，而DM的大小对于结果的影响较小。
在这里插入图片描述

FID

评估影像生成模型的好坏，需要一个已经训练好的CNN，比较representation的距离。
在这里插入图片描述

CLIP

在这里插入图片描述

Decoder

训练时不需要文字和影像成对的资料，只需要大量的影像的资料即可。如果中间产物是一个小图，那么就把原图压缩一下然后作为训练集。
在这里插入图片描述
如果中间产物是Latent Representation，那就是训练一个自编码器的问题。

生成模型

在之前生成模型中，是把noise直接加在图片上，但是现在的输入不再是图片了而是一个Latent representation。那么现在noise要加到Latent representation上。
在这里插入图片描述
而后就是训练一个Noise Predicter，这里过程也是与DM相似的。
生成的过程如下：其实与DM当输入是图像时是一样的，只是变了输入而已。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
text-to-image共同套路

主要分为三个模块，对于text encoder模块是输入一段文字，而后输出一串向量。第二个部分是Generation Model，这里使用的大多是DM，吃一个噪声以及文字的encoder产生一个中间产物，中间产物是一个图片被压缩后的版本。最后是套一个Decoder，把中间产物decode而后产生图片。三个模块是分别练好的，然后再组合起来的。下面来看Stable Diffusion的结构图，右侧部分是一个Encoder，他的输入是一些文字或图片等，内部生成器是一个DM，左侧是一个解码器。
复制链接

扫一扫

纯真. CSDN认证博客专家 CSDN认证企业博客

码龄4年

10: 原创

129万+: 周排名

47万+: 总排名

8488: 访问

: 等级

129: 积分

29: 粉丝

31: 获赞

15: 评论

107: 收藏

私信

关注

热门文章

最新评论

【网安保研夏令营经验贴】2023年北京理工大学网安夏令营
纯真.: 大概是whu吧
【网安保研夏令营经验贴】2023年北京理工大学网安夏令营
weixin_51594645: 大佬决定去哪了吗？whu还是bit呢？还是打算预推免冲华五
【网安保研夏令营经验贴】2023年武汉大学网安夏令营
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题中提到的2023年武汉大学网安夏令营听起来非常有趣和有益。通过您的经验贴，我们可以深入了解到夏令营的内容和学习收获。希望您能继续保持创作的热情和努力，分享更多有趣的经历和见解。同时，如果可能的话，我建议您在下一篇博客中，可以探讨一下夏令营对您个人成长和职业发展的影响，这将为读者们提供更多有价值的参考。再次感谢您的分享，期待您的下一篇作品！
text-to-image共同套路
CSDN-Ada助手: 恭喜您写了第10篇博客！标题“text-to-image共同套路”看起来非常吸引人。您的创作能力真是令人钦佩，一直保持创作的激情和坚持是很难得的品质。在这篇博客中，您似乎分享了一些关于text-to-image的技巧和经验，这对于那些对这个领域感兴趣的读者来说一定非常有帮助。在接下来的创作中，我想提出一个谦虚的建议。或许您可以在博客中尝试更多的实例和案例分析，这样可以帮助读者更好地理解和应用您所分享的套路。同时，您也可以考虑与其他领域的专家进行交流，探讨text-to-image在更广泛的应用场景中的潜力和挑战。无论如何，我期待着您未来更多精彩的创作！
VAE原理
CSDN-Ada助手: 恭喜您写完了第8篇博客！标题中的"VAE原理"引起了我的兴趣。我很高兴看到您在持续探索和分享有关VAE的知识。您在这篇博客中对VAE原理进行了详细解释吗？如果是的话，我期待着深入了解它。如果还没有涉及到细节，我鼓励您在未来的创作中加入更多实例或案例研究，以便我们更好地理解和应用VAE。继续努力写作，期待您下次的精彩分享！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。