自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 自监督的盲视频超分(TPAMI24)

Main branch分支是先经过VSR超分网络再进行退化得到退化的LR帧并和原始的LR的输入帧计算损失;2、视频中的信息相比于图像多,对于盲视频超分来说,需要充分利用视频中的信息,如时序,模糊信息;对于模糊核的使用是用来下采样LR以构造自监督的训练范式,但没有将估计出的模糊核利用到超分网络;模糊核估计的和真实GT模糊核还有所偏差,且真实场景下是没有GT模糊核监督的;通过估计的模糊核和光流构建LR视频帧的下采样帧LR',用来构建辅助损失;相比于盲图像中的模糊核估计,不同之处是模糊核估计网络的输入是不同的;

2024-04-29 19:02:27 1032

原创 SEAL: 面向real-SR的全面评估框架(ICLR24)

是第一个全面的real-SR评估框架,促进了real-SR的发展;

2024-04-26 10:51:42 723 1

原创 Bicubic如何直接处理多模糊核的测试——For Gaussian kernel setting

对图像进行不同的高斯退化,并直接用Bicubic来上采样并计算PSNR/SSIM

2024-04-12 00:56:07 224 1

原创 CVPR2024 Super-Resolution

paper:2403.01598.pdf (arxiv.org)code:Kiteretsu77/APISR: APISR: Anime Production Inspired Real-World Anime Super-Resolution (CVPR 2024) (github.com)paper:2401.03707.pdf (arxiv.org)code:CVPR 2024 Official repository of FMA-Net (github.com)paper:2401.06312.pd

2024-03-07 19:14:58 2234 1

原创 语义分割辅助下的视频超分辨率:Semantic Lens

分别在两个退化上,BI和BD退化上进行了比较,比较的方法为比较新和SOTA的方法,分别进行了重新的训练,在语义分割的数据集上,参数的设置和原论文一致;将语义以类似位置嵌入(transformer中的位置嵌入)的方式嵌入到从LR帧提取的特征中,并在语义先验的指导下实现以实例为中心的帧对齐;在所有的YTVIS数据集上达到了最好的效果,尤其是在BD退化上,提高显著,也验证了语义信息利用的有效性;是通过Q、K、V交叉注意力的形式来进行嵌入的,Q是通过GPS调整后的特征,K和V是视频语义信息特征;

2024-01-26 23:42:08 991 1

原创 LAM:使用局部归因图理解和可视化超分网络以及介绍一篇盲图像超分辨率重构文章

就相当于了一个分类模型,输出 LR 图片的某个 patch 里面是否有特定的特征。就可以计算这个标量对于 LR 图片的积分梯度了,这也就是 LAM 的核心思想。是不是只要加大感受野就能获得更好的性能呢?更大的感受野,或者多尺度的特征是否对于 SR 模型有效?为什么 Attention 或者 Non-local 的操作可以帮助提升 SR 性能?的各个分量的重要性做个排序,用专业的话术来说那就是 "归因"。的哪些分量对模型的决策有重要影响,或者说对。所谓归因,简单来说就是对于给定的输入图片。

2024-01-24 02:30:08 857

原创 Tranformr架构及代码实现

seq2seq模型,序列到序列,分为两部分,编码器和解码器1、通过编码器对序列进行向量化(词向量)2、把词向量输入到解码器,得到结果(生成单词)Nx的意思是指连续的堆叠N个encoder,得到一个编码特征Outputs(Shifted right)指的是将上一个encoder的输入直接拿过来。

2024-01-24 02:20:43 975

原创 Edge-SR:边缘信息指导的图像超分辨率重构

采用的损失为GAN的对抗损失,real/fake对应的为真实的图像GT的边缘信息预测得到的SR的边缘信息;边缘增强的作用是:从低分辨率图像中得到较清晰的图像边缘信息,并以该信息来之后的超分/修复工作进行监督;通过反卷积的形式先将图片放大到和HR一样大,再将其和预测出的SR图像边缘信息一同送入生成器;将低分辨率图像的边缘信息和低分辨率图像的灰度图一起送入生成器,预测出SR的图像边缘信息;对于X4倍的超分,其纹理的信息是从LR中的图像边缘信息中生成的;估计出的HR图像显著的特征丢失,从而导致了结果边缘的模糊;

2024-01-24 01:55:53 987

原创 文本辅助的图像超分辨率重构 Image Super-Resolution with Text Prompt Diffusion(2023 CVPR PromptSR)

实验表明,只使用degradation的泛化性能和效果最好,因为图像本身是包含了一些语义信息的,两者都用的话会对退化方面的prompt产生一定的不良影响,这是作者认为产生这种原因的结果。Text Encorder是冻结的,使用的预训练好的文本编码器,如CLIP/T5模型,只训练扩散模型,网络的整体是一个U-net架构的去噪框架;使用的训练数据是一个text-image的数据集,形式如(c,[y,x]),c是文本描述,y是HR,x为LR。然而,这种表述很麻烦。此外,过于精确的描述可能会限制普遍性。

2024-01-24 01:12:38 1217 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除