自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

AIGCer的博客

博客等级

码龄3年

400
原创

7286
点赞

6111
收藏

3394
粉丝

关注

私信

热门文章

分类专栏

最新评论

多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型
易以千秋: D-DiT 的架构应该是基于双分支 Transformer的架构，它包含两个分支：一个用于处理图像tokens，另一个用于处理文本tokens。图像和文本tokens在每一层的注意力机制中相互交互。image虽然是采用VAE编码的，但是去噪的过程依旧是采用MM-DiT的Transformer的架构，并不是你所讲的SD3原来的UNet架构。同时，关于跨模态的语义对齐是采用的交叉注意力机制和标量时间步嵌入来实现的。经过txt的T5文本编码器码和image的VAE编码，在每个Transformer block 的注意力层中，图像 token 和文本 token 会相互关注，并通过AdaLN（自适应层归一化）调节每一层的特征图。对于图像（连续空间），模型采用连续扩散。具体来说，它使用了 Flow Matching（流匹配）来学习图像的条件分布，这是 SD3采用的先进技术。对于文本，模型采用离散扩散，因为文本token是离散的。具体来说，它使用了“带吸收状态的掩码扩散”（absorbing state (i.e., masked) diffusion）来学习文本的条件分布。这类似于 BERT 的掩码语言模型（MLM），但它是一个扩散过程：从原始文本x开始，随时间t增加，越来越多的 token 被替换为 [MASK] 符号。这与你所讲的有很大出入，但是还是感谢博主的分享，你可以参考：https://zhuanlan.zhihu.com/p/24184769570
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
S=E�H: 二阶段evla都没加载一阶段权重，不知道怎么搞的
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
颢凡GJN: 求问复现出来了吗，作者的另一篇也是，给的权重效果贼好，就是重新训练复现不出来，差好远
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
ROCMC_JWYZ: 请问能提供一下链接吗？我好像没找到这个阶段一的代码
ECCV2024｜LightenDiffusion 超越现有无监督方法，引领低光图像增强新纪元！
柚一君: 只给了两个预训练权重和第二阶段的训练代码，但是完全复现不出来

音频生成

关注

文章平均质量分 89

关注数：文章数：2 文章阅读量：2436 文章收藏量：15

作者: AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容，请关注公众号：AI生成未来

展开

专栏收录文章