好好开始文生图

最新推荐文章于 2024-07-03 12:24:45 发布

Selvaggia

最新推荐文章于 2024-07-03 12:24:45 发布

阅读量319

点赞数 4

分类专栏：力大无穷文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51070956/article/details/137123023

版权

力大无穷专栏收录该内容

5 篇文章 0 订阅

订阅专栏

基于transformer
以前UNET架构，基于卷积，现在把卷积换成transformer
Diffusion transformer

数据更少，文本数据就要更优质

训好了，通过增加额外模块，提高文本质量
如果给的文本时粗粒度的，那么生成的图片，额外信息，随即补全

按类别引导，而不是按文本引导？

衡量图像文本对的匹配程度

重参数技巧

Σ：
VAE
提高分辨率
压缩QKV
三个阶段，灾难遗忘
前面用简单的数据，后面用好一点的数据

高质量评估数据集

文本编码器的语义理解能力不足，导致编码得到的特征不完全

好的prompt，关键词堆砌起来

送到gpt里，问他怎么才是一只漂亮的猫

不是在语言层面去做，在特征层面去做

人工设计的prompt来约束gpt，不让他自由发挥

大预言模型，推理慢
蒸馏成一个adapter，大模型来弥补简单prompt和复杂prompt之间的差距

LLM编码出来的特征语义信息更丰富
让LLM编码出来的特征和简单 text encoder编码出来的特征尽可能近

LLM编码出来的特征和简单 text encoder编码出来的特征加权

蒸馏的方案不太好，可能蒸馏的太小了，流量就这么多

训练语料的质量不够高

文生图 prompt

8k，分辨率，训练语料里面
像个暗语，8k按时要求生成高分辨率图片

隐含语义（复杂prompt没表达出来的）包含在复杂prompt里
不是一段连贯的话

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
好好开始文生图

基于transformer以前UNET架构，基于卷积，现在把卷积换成transformer数据更少，文本数据就要更优质训好了，通过增加额外模块，提高文本质量如果给的文本时粗粒度的，那么生成的图片，额外信息，随即补全按类别引导，而不是按文本引导？衡量图像文本对的匹配程度重参数技巧Σ：VAE提高分辨率压缩QKV三个阶段，灾难遗忘前面用简单的数据，后面用好一点的数据高质量评估数据集文本编码器的语义理解能力不足，导致编码得到的特征不完全。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。