Paper reading
phoenix@Capricornus
六边形美少女战士
展开
-
Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining
文中最重要的跨尺度非局部模块就是公式(4),这里内积通过滤波实现,图中的Deconvolution实际上是转置卷积,解卷积和转置卷积是完全不同的概念。公式(4)通过如下图理解一目了然,本来可以画个图一清二楚,偏不画。原创 2024-09-03 08:38:12 · 184 阅读 · 0 评论 -
Tutorial on Diffusion Models for Imaging and Vision
扩散模型的编码过程是确定性的,没有参数需要学习,只有解码过程有参数,而参数就是学习逆向转移的条件概率。因此,diffusion 的 kl 项无需训练,所以就只剩下了mse损失。VAE的编码和解码过程都用神经网络,所以编码和解码都有参数需要学习,因此有kl项。且直观解释了ELBO。非常直观地说明了逆向的每一步都是增加多样性,而不是为了去噪,这是因为其中第二项已经可以做去噪了。共同点都是和随机采样类似,有一个随机项,直观解释就是增加多样性。再过渡到像残差网络一样,学残差,不直接学图像,就是现在见到的损失函数。原创 2024-08-31 16:37:26 · 166 阅读 · 0 评论 -
Generalized Nonconvex Nonsmooth Low-Rank Minimization
求解秩最小化问题一度很兴盛,涌现了很多论文,时间说明还是软阈值用于奇异值上这种最朴素的方法最好用。该文就是统一了一个框架,给出一个通解。事实上这样的想法会造成解的参数过多,没有针对性。这篇论文一上来就说解下面的模型,也没有引用,也不知道是否自己总结了这么一个统一框架。范数,这么一个统一的框架还没有把加权的方法包括进去。范数,实际上就是Scattern。原创 2024-08-28 17:48:29 · 316 阅读 · 0 评论 -
Denoising Prior Driven Deep Neural Network for Image Restoration
之所以能够检索到这篇论文是想看看该论文是如何利用多尺度相似性解决图像去噪问题,除了摘要和结论,论文中两次提到这个术语。next section是指section 4。然后整个section 4,根本没有提多尺度的事儿,更别说解决了。又看了一下The architecture of the plugged DCNN-based denoiser,这不就是一个UNet嘛,哪里和现有方法不同了。这是挂羊头连狗肉都不卖。原创 2024-06-15 17:06:49 · 266 阅读 · 0 评论 -
Blind Image Deblurring Using Spectral Properties of Convolution Operators
表示清晰图像的卷积特征值,假设条件是清晰图像的卷积特征值大于模糊图像的,也就说最小的卷积特征值越大越好,那不等号左边的项就是越小越好。最小化它的意思:经过推导可得这个正则项与清晰图像的卷积特征值的关系。该论文的创新是提出一个关于核的正则项。以下是模糊核的正则项,希望最小化的是它。矩阵的谱,也称为矩阵的谱半径,定义为矩阵的特征值的模的最大值。该论文利用的是卷积特征值,可以类比矩阵的特征值,但不叫谱。总结:卷积核与清晰图像受模糊降质模型制约,通过核实现假设。是卷积特征值的个数。原创 2024-04-12 22:50:29 · 232 阅读 · 0 评论 -
High-Resolution Image Synthesis with Latent Diffusion Models
第2点在于引入prompt时,使用了互注意力。原来的UNet的每层后接的nonlocal的自注意力,本质就是自相关,这里为了引入prompt,换成了prompt和每层输出特征的互相关。所谓隐扩散模型,就是将高维像素空间映射到低维隐变量空间,这里用的是VAE编解码器。其实就是将扩散模型嵌套进了VAE中。该论文的主要创新点就是VAE+扩散模型。Stable diffusion的基础架构。原创 2024-04-08 16:15:59 · 149 阅读 · 0 评论 -
Deep Image Prior
从简单分布到复杂分布的映射,本质上是将重建限制到某一流形,在流形上通过观测图像的数据保真项作为监督。这个扰动也很关键,本质上一个平滑正则项。直观理解是各种扰动后都能逼近观测图像,那就是它们的平均值。称之为先验也是很准确,流形就是先验。原创 2024-04-06 23:05:58 · 173 阅读 · 0 评论 -
CLIP——Learning Transferable Visual Models From Natural Language Supervision
待写。原创 2024-03-31 09:45:52 · 369 阅读 · 0 评论 -
Blind Super-Resolution Kernel Estimation using an Internal-GAN
KernelGAN通过训练低分辨率图像的降采样版本与低分辨率图像之间的对抗损失,使得生成器拟合高分辨率图像的降质过程,生成网络是模糊核。这篇论文的思路是真得好。该方法本质上是通过最大化图像跨尺度自相似性估计模糊核。KernelGAN仅利用图像本身,不使用任何外部样本,属于自监督学习。如何通过损失找出跨尺度相似块,是个问题,至今没有读懂。原创 2024-03-29 18:41:52 · 192 阅读 · 0 评论 -
Learning Deep CNN Denoiser Prior for Image Restoration
该论文提出了网络学习和数学最优化交替迭代求解的思想,开创了一个新的思路。尽管只是解决一个非盲复原的问题,还用成对数据集训练去噪网络,有杀鸡用牛刀的感觉,然而这个思想可以很容易推广到其他严重的病态逆问题上。z子问题就是文中的denoiser,用成对的有噪/无噪数据集训练。x子问题是二次正则化最小二乘模型,有直接解、解析解、精确解。两个子问题交替迭代求解。优势是利用网络的学习能力,和数学模型的灵活性。原创 2024-03-29 18:17:59 · 205 阅读 · 0 评论 -
Flow-based Kernel Prior with Application to Blind Super-Resolution
该论文的创新点在于FKP,相当于隐式地建模模糊核的先验。Normalizing flows的思想是将复杂分布空间映射到简单分布,通常是正态分布。由于超分的核通常类似二维高斯函数,随机采样二维高斯函数的参数生成一堆核作为FKP的训练样本,最优化方法是极大似然估计,损失函数是。是复杂分布,没有数学表达式,通过变量变换建立与正态分布的关系,正态分布有数学表达式。,通过逆向映射,从正态分布映射到模糊核,就有了核的模样,这是先验。有了核的先验,在DIP的框架中自监督就好了。原创 2024-03-27 17:51:15 · 333 阅读 · 0 评论 -
Self-supervised Nonuniform Kernel Estimation with Flow-based Motion Prior for Blind Image Deblurring
我认为对于Blind Image Deblurring,无论需要核的真值,还是图像的真值都是监督方法。网络在估计模糊核的过程中需要图像的真值,因此Kernel Estimation不能称为Self-supervised。该论文存在多处描述不准确的问题,还存在降质模型的表示前后不一致的问题。不能解决Kohler数据集的去模糊方法,都不是好的去模糊方法。原创 2024-03-26 13:05:54 · 249 阅读 · 0 评论 -
Unfolded Deep Kernel Estimation for Blind Image Super-resolution
至于Netk和Netx的网络结构,作者应该是觉得不重要,放在补充文件中,就是卷积层堆叠,硬生生学习。这两个公式解x,Solvex直接解,Netx需要训练集学习x先验。这两个公式解y,Solvek直接解,Netk需要训练集学习k先验。范数是向量范数,向量的国标是黑斜体,约定成俗是小写)Solvex和Solvek费很大劲就解出了中间变量。监督方法,同时需要x真值和k的真值。盲超分,x子问题和k子问题交替求解。然后两个子问题交替迭代求解。原创 2024-03-26 10:13:13 · 191 阅读 · 0 评论 -
Dual-Domain Attention for Image Deblurring
错误在所难免,但是不能离谱,更不能离两次谱。后面也不用看了,因为对专业性产生了质疑。AAAI的论文,Reviewers在打瞌睡吗?原创 2024-03-24 17:13:24 · 228 阅读 · 0 评论 -
Learning Degradation Representations for Image Deblurring
概率就是概率,那是一个函数,数学上函数会用黑板粗体(Blackboard bold)吗?符号表示不要随心所欲。请尊重数学,尊重数学的符号体系。原创 2024-03-24 09:39:06 · 172 阅读 · 0 评论 -
Revisiting the Regularizers in Blind Image Deblurring With a New One
所谓重降函数,实际上就是一个先升后降的函数,图像先验的正则项是关于图像梯度的罚函数。大量的偏微分方程的内容,镜头一转就到了by now,就得出了结论。该罚函数的假设条件是,图像的梯度大于某个阈值,清晰图像的梯度大于模糊图像的梯度;梯度小于某个阈值,清晰图像的梯度小于模糊图像的梯度。至于哪个更能反映图像实际的统计特征,是多个先升后降函数的实验结果。之后是半二次分裂求解,这部分中的t是分解使用的辅助变量,与偏微分方程中的时间t不是一个变量。首先是这个题目,a new one,不知道这个题目是怎么通过的。原创 2024-03-22 12:55:23 · 234 阅读 · 0 评论 -
Self-supervised Blind Motion Deblurring with Deep Expectation Maximization
实际上就是模仿Double-DIP,用两个U-Net分别估计图像和模糊核。Self-Deblur也说了模糊核比较简单,所以用了全连接网络。这篇论文基本思想与Self-Deblur完全一致,只是降质模型是非均匀模糊,估计模糊核是多输出的。所谓的EM算法,其实是伪的EM算法,并没有E步和M步迭代做什么,只是推导出一个Q函数。而且实验结果又说采样数为1最好。一顿操作猛如虎,结果白推导(白努利)呗,最终还是数据保真项的梯度下降。有些人真会讲故事,再加上reviewers中砖头太多呗。原创 2024-03-20 17:38:28 · 187 阅读 · 0 评论