- 博客(3)
- 收藏
- 关注
原创 论文笔记:Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer
首先创建一个足够大的位置编码表,使用随机起点:对于每个训练图像,为图像的左上角随机分配一个位置 (x, y),而不是默认的 (0,0)。Inf-DiT 的架构使用了与DiT类似的主干,它将Vision Transformer (ViT)应用于扩散模型,与基于卷积的体系结构(如UNet)相比,DiT仅利用注意力作为patch之间的。在UNet、DiT等模型中,块之间的依赖关系是双向的,即在计算时必须同时生成图像中的所有块。左图:单向块注意力中,每个块直接取决于自身层的三个块:左上角的块、左侧和上面的块。
2024-05-25 20:25:37
1062
原创 论文笔记:Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
通过解决预训练的stableSR无法保持可信的像素结构以及跳跃连接需要在图像空间进行额外训练的问题,提出了一种像素感知稳定扩散(PASD)网络来实现图像的超分辨率和个性化。具体地,引入了像素感知的交叉注意模块,使扩散模型在像素级感知图像局部结构。退化去除模块用于提取退化不敏感特征,以图像高级信息指导扩散过程。引入可调噪声调度,进一步提高图像恢复结果。
2024-05-17 21:02:06
969
1
原创 扩散模型图像生成及超分论文(顶会顶刊2022-2024)
为了解决采样(推理)速度慢,模型计算量大的问题,本文提出了ResShift方法,该方法将扩散模型最终步由白噪声转变为LR图像,同时是在Latent Space空间进行该操作,两个操作都有效降低了计算量,加快了推理速度,同时该方法提出了一个噪声表(schedule),能够有效控制扩散过程中的噪声强度和转换速度,也可有效控制保真度-真实性trade-off。引入了一个可控的特征包装(CFW)模块,给定LR特征的信息Fe和来自固定解码器的特征Fd,以残差的方式获得一个调优的特征Fm。论文地址:(V2版)
2024-05-17 15:57:36
766
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人