DiT：Scalable Diffusion Models with Transformers # 论文阅读

最新推荐文章于 2024-07-08 18:48:12 发布

奔跑的汉堡包

最新推荐文章于 2024-07-08 18:48:12 发布

阅读量318

点赞数 5

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29679623/article/details/138638316

版权

URL

TD;DR

上帝视角看的神作 DIT 架构，22 年 12 月 META（伯克利+新乡大学）发布，一个取代了 Unet 的全 transformer diffusion 生图架构。

Model & Method

总体结构如下图，文章一共给出了 3 重 DiT 的 block 结构，区别是 condition 的注入方式，从左到右依次是：

adaLN-Zero：就是通过 adaptive layer norm 把 timestamp + cls token 注入到 attn token 里面，但是仅限于单个 token 的情况比较好用，因为只能引入两个可学习参数 dimensionwise scale and shift parameters γ and β。对于 natural language 长文本来说不是很够用
常见的 cross attn 方式，用来处理带有 text condition 的长文本输入。
直接 concat 到 vis token 后面，和第一种情况类似，token 长度过长之后就不好用了。猜测效果还没有第一种好。好处是几乎不引入额外的计算量。

vae 之后的 latent，过类似 ViT 的 patch 操作，把原本二维的图像特征一维化。
在这里插入图片描述

DiT 的基本结构 follow ViT 的几种配置：ViT-B、S、L、XL，因此也有四种对印度个参数量设置

Dataset & Results

可以参考原文，结果展示不是很重要，重点是思路

Thought

篇幅不多但是思路非常清晰，输入的 patch 操作帮助 DiT 不会受到分辨率的影响。
另外因为是纯 transformer 架构，所以文生图的 scaling law 开始出现了

奔跑的汉堡包

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
DiT：Scalable Diffusion Models with Transformers # 论文阅读

上帝视角看的神作 DIT 架构，22 年 12 月 META（伯克利+新乡大学）发布，一个取代了 Unet 的全 transformer diffusion 生图架构。
复制链接

扫一扫

奔跑的汉堡包 CSDN认证博客专家 CSDN认证企业博客

码龄9年

37: 原创

39万+: 周排名

3万+: 总排名

6万+: 访问

: 等级

1163: 积分

202: 粉丝

297: 获赞

143: 评论

446: 收藏

私信

关注

热门文章

分类专栏

读书笔记 2篇

最新评论

Training-Free Consistent Text-to-Image Generation # 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
DiT：Scalable Diffusion Models with Transformers # 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Mix-of-Show: Decentralized Low-Rank Adaptation forMulti-Concept Customization # 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
FastComposer: Tuning-Free Multi-Subject ImageGeneration with Localized Attention # 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
SWAPANYTHING: Enabling Arbitrary ObjectSwapping in Personalized Visual Editing # 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。