DiT:Scalable Diffusion Models with Transformers # 论文阅读

URL

TD;DR

上帝视角看的神作 DIT 架构,22 年 12 月 META(伯克利+新乡大学)发布,一个取代了 Unet 的全 transformer diffusion 生图架构。

Model & Method

总体结构如下图,文章一共给出了 3 重 DiT 的 block 结构,区别是 condition 的注入方式,从左到右依次是:

  1. adaLN-Zero:就是通过 adaptive layer norm 把 timestamp + cls token 注入到 attn token 里面,但是仅限于单个 token 的情况比较好用,因为只能引入两个可学习参数 dimensionwise scale and shift parameters γ and β。对于 natural language 长文本来说不是很够用
  2. 常见的 cross attn 方式,用来处理带有 text condition 的长文本输入。
  3. 直接 concat 到 vis token 后面,和第一种情况类似,token 长度过长之后就不好用了。猜测效果还没有第一种好。好处是几乎不引入额外的计算量。
    在这里插入图片描述

vae 之后的 latent,过类似 ViT 的 patch 操作,把原本二维的图像特征一维化。
在这里插入图片描述

DiT 的基本结构 follow ViT 的几种配置:ViT-B、S、L、XL,因此也有四种对印度个参数量设置

Dataset & Results

可以参考原文,结果展示不是很重要,重点是思路

Thought

  • 篇幅不多但是思路非常清晰,输入的 patch 操作帮助 DiT 不会受到分辨率的影响。
  • 另外因为是纯 transformer 架构,所以文生图的 scaling law 开始出现了
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值