ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务

AI生成未来

于 2025-02-16 17:06:36 发布

阅读量898

点赞数 21

CC 4.0 BY-SA版权

分类专栏：图像生成视频生成扩散模型文章标签：文生图图像生成视频生成 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCer/article/details/145667122

论文地址：https://arxiv.org/pdf/2409.04005
项目主页：https://360cvgroup.github.io/Qihoo-T2X
代码仓库：https://github.com/360CVGroup/Qihoo-T2X

作者信息：论文一作为来自中山大学的博士生王晶；论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲

亮点直击

提出了Proxy-Tokenized扩散 transformer（Proxy-Tokenized Diffusion Transformer，PT-DiT）。

推出了Qihoo-T2X系列模型，包括文本到图像（T2I）、文本到视频（T2V）以及文本到多视图（T2MV）生成模型。

设计了代理标记化注意机制，使得PT-DiT无需结构调整即可适应图像和视频生成任务。

实验结果表明，该方法在保持竞争性能的同时显著提高了效率。

在标准的3D VAE设置下（8倍空间下采样率和4倍时间下采样率），实验表明，该方法可以在64GB Ascend 910B上训练PT-DiT/XL（1.1B参数）模型，用于分辨率为2048×2048的图像生成或分辨率为512×512×288的视频生成。

Diffusion Transformer模型由于全局self-attention，其计算复杂度与序列长度平方成正比，导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。

为此，来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视频和Multi-View的等多种生成任务。作者基于PT-DiT进一步构建了包含Qihoo-T2I，Qihoo-T2V和Qihoo-T2MV等模型的Qihoo-T2X系列实现文本生成任意任务。

同参数规模下，PT-DiT的计算量仅为Lumina-Next的17.5%，DiT的51.4%。在降低计算量的同时，Qihoo-T2X展现出了与，Flux，Easyanimate和CogVideo相似的性能，能够根据给定指令生成逼真的高质量图像和视频。目前该研究已开源。

最低0.47元/天解锁文章

博客等级

码龄2年

337
原创

6282
点赞

5305
收藏

3387
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 只需一步！上交&哈佛提出FluxSR：首个基于12B+大模型的单步扩散真实世界超分模型

下一篇：: 多模态大语言模型（MLLMs）如何重塑和变革计算机视觉？

最新评论

多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型
易以千秋: D-DiT 的架构应该是基于双分支 Transformer的架构，它包含两个分支：一个用于处理图像tokens，另一个用于处理文本tokens。图像和文本tokens在每一层的注意力机制中相互交互。image虽然是采用VAE编码的，但是去噪的过程依旧是采用MM-DiT的Transformer的架构，并不是你所讲的SD3原来的UNet架构。同时，关于跨模态的语义对齐是采用的交叉注意力机制和标量时间步嵌入来实现的。经过txt的T5文本编码器码和image的VAE编码，在每个Transformer block 的注意力层中，图像 token 和文本 token 会相互关注，并通过AdaLN（自适应层归一化）调节每一层的特征图。对于图像（连续空间），模型采用连续扩散。具体来说，它使用了 Flow Matching（流匹配）来学习图像的条件分布，这是 SD3采用的先进技术。对于文本，模型采用离散扩散，因为文本token是离散的。具体来说，它使用了“带吸收状态的掩码扩散”（absorbing state (i.e., masked) diffusion）来学习文本的条件分布。这类似于 BERT 的掩码语言模型（MLM），但它是一个扩散过程：从原始文本x开始，随时间t增加，越来越多的 token 被替换为 [MASK] 符号。这与你所讲的有很大出入，但是还是感谢博主的分享，你可以参考：https://zhuanlan.zhihu.com/p/24184769570
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
S=E�H: 二阶段evla都没加载一阶段权重，不知道怎么搞的
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
颢凡GJN: 求问复现出来了吗，作者的另一篇也是，给的权重效果贼好，就是重新训练复现不出来，差好远
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
ROCMC_JWYZ: 请问能提供一下链接吗？我好像没找到这个阶段一的代码
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
柚一君: 只给了两个预训练权重和第二阶段的训练代码，但是完全复现不出来

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。