好好开始文生图

基于transformer
以前UNET架构,基于卷积,现在把卷积换成transformer
Diffusion transformer

数据更少,文本数据就要更优质

训好了,通过增加额外模块,提高文本质量
如果给的文本时粗粒度的,那么生成的图片,额外信息,随即补全

按类别引导,而不是按文本引导?

衡量图像文本对的匹配程度

重参数技巧

Σ:
VAE
提高分辨率
压缩QKV
三个阶段,灾难遗忘
前面用简单的数据,后面用好一点的数据

高质量评估数据集

文本编码器的语义理解能力不足,导致编码得到的特征不完全

好的prompt,关键词堆砌起来

送到gpt里,问他怎么才是一只漂亮的猫

不是在语言层面去做,在特征层面去做

人工设计的prompt来约束gpt,不让他自由发挥

大预言模型,推理慢
蒸馏成一个adapter,大模型来弥补简单prompt和复杂prompt之间的差距

LLM编码出来的特征语义信息更丰富
让LLM编码出来的特征 和 简单 text encoder编码出来的特征尽可能近

LLM编码出来的特征和 简单 text encoder编码出来的特征 加权

蒸馏的方案不太好,可能蒸馏的太小了,流量就这么多

训练语料的质量不够高

文生图 prompt

8k,分辨率,训练语料里面
像个暗语,8k按时要求生成高分辨率图片

隐含语义(复杂prompt没表达出来的) 包含在 复杂prompt里
不是一段连贯的话

KL散度

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值