论文
文章平均质量分 93
Toyag
It will be better!
展开
-
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
所以考虑在不重新训练模型的情况下删除/替换交叉注意是很重要的。受DeepCache的启发,作者提出了一种有效且无需训练的方法,称为TGATE。原创 2024-05-06 10:14:55 · 1085 阅读 · 0 评论 -
SDXS:Real-Time One-Step Latent Diffusion Models with Image Conditions
在看这个文章之前,首先要对 consistency model ,score-based model要有一定了解,以及相应的知识蒸馏,怎样去做单步生成的等等扩散模型由于其迭代采样过程而导致显著的延迟。为了减轻这些限制,作者引入了一种双重方法,包括模型小型化和减少采样步骤,旨在显著降低模型延迟。还是利用知识蒸馏来简化U-Net和图像解码器架构,并引入了一种利用特征匹配和分数蒸馏的创新的单步DM训练技术。作者提出了两种模型,和。原创 2024-04-28 14:03:32 · 736 阅读 · 1 评论 -
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
图文一致性的原因还是因为文本的 token 的激活注意值不高,导致文本的 token 无法激活图像的区域,从而导致图文不一致。作者将这种现象归因于扩散模型的训练方式对条件的利用不足,所以提出了 CoMat,是一种。原创 2024-04-25 17:57:37 · 926 阅读 · 1 评论 -
Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models
UNet通常是作为噪声预测来看待的。之前的一些工作已经探索了UNet作为解码器的基本属性,但其作为编码器在很大程度上仍未被探索。编码器特征变化缓慢,而解码器特征在不同的时间步长上表现出实质性的变化。这一发现启发作者在一定的相邻时间内省略编码器,循环重用前面时间步的编码器特征来用于解码。原创 2023-12-22 15:03:51 · 1250 阅读 · 0 评论 -
DDPM(扩散模型):以自己能够理解的角度梳理一下
去噪扩散概率模型。总得来说分为两个过程;前向过程(加噪)反向过程(去噪)前向过程也称为扩散过程,将真实数据逐步变成噪声。原创 2023-12-21 14:05:58 · 1083 阅读 · 0 评论 -
AdaDiff: Adaptive Step Selection for Fast Diffusion
扩散模型的生成过程涉及到几十个步骤的去噪以产生逼真的图像/视频,这在计算上是昂贵的。本文认为去噪步骤应该根据输入样本的复杂程度来进行特定的采样。因此提出了AdaDiff,一个轻量级的框架来学习的步骤策略。还是和之前方法一样,使用策略梯度方法来最大化一个奖励函数。(平衡推理时间和生成质量)作者在 3 个图像生成基准测试和 2 两个视频生成基准测试进行了实验,结果表明:可以实现和固定 50 个去噪步骤的模型实现相当的结果,但是本文提出的方法减少了33−4033%−40%的推理时间。原创 2023-12-21 14:03:06 · 1022 阅读 · 0 评论