自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 论文笔记:Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

首先创建一个足够大的位置编码表,使用随机起点:对于每个训练图像,为图像的左上角随机分配一个位置 (x, y),而不是默认的 (0,0)。Inf-DiT 的架构使用了与DiT类似的主干,它将Vision Transformer (ViT)应用于扩散模型,与基于卷积的体系结构(如UNet)相比,DiT仅利用注意力作为patch之间的。在UNet、DiT等模型中,块之间的依赖关系是双向的,即在计算时必须同时生成图像中的所有块。左图:单向块注意力中,每个块直接取决于自身层的三个块:左上角的块、左侧和上面的块。

2024-05-25 20:25:37 1062

原创 论文笔记:Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

通过解决预训练的stableSR无法保持可信的像素结构以及跳跃连接需要在图像空间进行额外训练的问题,提出了一种像素感知稳定扩散(PASD)网络来实现图像的超分辨率和个性化。具体地,引入了像素感知的交叉注意模块,使扩散模型在像素级感知图像局部结构。退化去除模块用于提取退化不敏感特征,以图像高级信息指导扩散过程。引入可调噪声调度,进一步提高图像恢复结果。

2024-05-17 21:02:06 969 1

原创 扩散模型图像生成及超分论文(顶会顶刊2022-2024)

为了解决采样(推理)速度慢,模型计算量大的问题,本文提出了ResShift方法,该方法将扩散模型最终步由白噪声转变为LR图像,同时是在Latent Space空间进行该操作,两个操作都有效降低了计算量,加快了推理速度,同时该方法提出了一个噪声表(schedule),能够有效控制扩散过程中的噪声强度和转换速度,也可有效控制保真度-真实性trade-off。引入了一个可控的特征包装(CFW)模块,给定LR特征的信息Fe和来自固定解码器的特征Fd,以残差的方式获得一个调优的特征Fm。论文地址:(V2版)

2024-05-17 15:57:36 766

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除