Dimab
文章平均质量分 71
six.学长
爱科研的小逯
展开
-
T5 模型详解
T5 模型在 Dimba 模型中扮演了关键角色,通过将输入文本描述转化为特征向量,为图像生成过程提供了丰富的语义信息。T5 模型的文本到文本框架、基于 Transformer 的架构,以及预训练与微调的结合,使其在处理多种 NLP 任务时具有高度的灵活性和强大的性能。原创 2024-07-26 15:31:45 · 167 阅读 · 0 评论 -
Dimba: Transformer-Mamba Diffusion Models————3 Methodology
文本处理:输入的文本描述通过 T5 模型提取特征,生成文本特征向量。图像处理:输入图像通过 VAE 编码器转换为潜在表示,并添加噪声。时间步信息:时间步信息通过共享的 MLP 投影,并插入到自适应归一化层中。Dimba 块前馈网络层对输入特征进行非线性变换。双向 Mamba 层处理特征,减少内存使用,提高计算效率。交叉注意力模块将文本特征与图像特征整合,增强语义一致性。自注意力模块捕捉全局依赖关系,增强特征表达能力。输出:经过多个 Dimba 块的处理,生成最终的高质量图像。原创 2024-07-26 11:03:05 · 486 阅读 · 0 评论 -
Dimba: Transformer-Mamba Diffusion Models————Abstract
Dimba 是一种全新的文本到图像扩散模型,采用独特的混合架构,结合了 Transformer 和 Mamba 元素。具体来说,Dimba 通过交替堆叠 Transformer 层和 Mamba 层来构建模型,并通过交叉注意力层整合条件信息,从而充分利用这两种架构的优势。我们探讨了多种优化策略,包括质量调优、分辨率适应,并确定了大规模图像生成所需的关键配置。原创 2024-07-25 21:33:12 · 255 阅读 · 0 评论