Ton10-CSDN博客

原创超分之RVRT

VSR方法大致分为Sliding-windows、Recurrent、Transformer三大类，其中后面两个是目前已被证明更好的方法。现有的视频超分陷入了2个极端，即要么就是Recurrent-based模型，要么就是Transformer-based模型。Recurrent-based模型例如RLSP、BasicVSR、BasicVSR++等通过一帧接一帧的方式对LR图像进行超分。虽然基于RNN会使得模型共享从而产生较小的模型量；此外每次处理一帧也使得运算效率很高；例如VSRT、VRTLRS。...

2022-07-28 17:20:10 2177 1

原创深度学习之DAT

这篇文章是2022年Vision-Transformer领域的CVPR论文。文章推出了一种新的Vision Transformer模型——(DAT)。DAT将DCN运用到Transformer中，从而将注意力的运算集中在重要性区域上，为目标检测带来了一定程度的性能提升。DAT最大的价值在于其使得自注意力层可以聚焦于相关区域来捕获信息。参考目录：①源码②CVPR 2022 | 清华开源DAT：具有可变形注意力的视觉Transformer③DAT论文解读(暖风)Note：Vision Transforme

2022-07-25 17:20:21 1913

原创深度学习之SuperViT

首先需要指明的一点是，SuperViT比ViT强在哪？计算效率。SuperViT通过使用较低分辨率的输入图像来将token控制在较小的范围内，从而降低相似度计算次数；此外，作者将一些含有重要信息较少的token直接丢弃，从而进一步降低每一种尺度下的注意力计算量。准确率。SuperViT使用机制，也可以理解为丢弃不相关的token的方法。这种方式可以将注意力集中在信息更加重要的地方；此外，多尺度的输入产生了不同尺度的相关性与感受野，从而可以提取更加丰富的特征信息。本文提出了一种新的优化ViT的模型——...

2022-07-23 19:10:19 1106

原创超分之VRT

2022年推出的基于Vision-Transformer的并行视频超分模型——VRT

2022-06-26 16:34:54 3545 2

原创超分之RLSP

基于RNN的VSR模型——RLSP

2022-06-19 14:20:44 1611 2

转载多层级的SISR算法

多层级的单图像超分算法小结

2022-06-17 15:48:52 475

原创超分之TTVSR

这篇文章是2022年的CVPR，不同于之前VSR的对齐方式(即flow-based或者DCN-based)，本文提出的Trajectory-Aware Transformer for Video Super-Resolution(TTVSR)抛弃了传统的对齐方式，该模型利用Transformer的自注意力机制在运动轨迹中寻找相似度最高的patch作为当前帧的对齐帧。这种模型的优势在于其更适用于长序列输入帧情况且大大减少了Transformer的高计算消耗。参考文档①源码光流(flow)用Δ\Delt.

2022-06-03 22:13:48 1798

原创超分之VSRT

这篇文章参考文档：①Transformer再下一城！ETH提出：视频超分辨率Transformer②浅析Transformer训练时并行问题Video Super-Resolution TransformerAbstract1 Introduction2 Related Work3 Preliminary and Problem Definition4 Video Super-Resolution Transformer4.1 Spatial-Temporal Convolution Self-at

2022-05-19 17:34:01 1766

原创深度学习之COLA-Net

这篇文章是首篇将局部(Local)注意力和全局(Non-Local)注意力进行结合来做图像重建的论文。文章作者设计了一个将局部注意力机制和全局注意力机制一起协同合作来重建图像的网络模型——Collaborative Attention Network(COLA-Net)；文章的核心是提出了一个patch-wise的产生自注意力的新结构，和ViT不同，它除了拥有捕捉图像上长距离相关性之外，还能更好地捕捉局部相关性，当然也只是增加了一些局部相关，但并没有做到CNN那样捕捉局部相关性的能力。Note：局部.

2022-05-17 21:17:26 2729 1

原创深度学习之ViT

这篇文章的核心是提出了Vision-Transformer结构，将2017年Attention is All you Need在NLP中引入的Transformer结构应用于计算机视觉任务中。Transformer是一种基于自注意力结构的网络，和CNN捕捉卷积窗口内的局部信息不同，它利用注意力来捕获全局上下文信息之间的相关性。文章引入图像块(patch)的概念，patch由P×PP\times PP×P个像素组成，通过将patch进行flatten，然后通过投影层转换成固定长度的特征向量，最后和NLP中表.

2022-05-14 18:56:08 3319 1

原创超分之BasicVSR++

这篇文章是BasicVSR的升级版本\colorbox{tomato}{升级版本}升级版本，同一批作者将BasicVSR中的Propagation和Alignment部分进行了增强产生了新一点VSR方法——BasicVSR++。具体而言，Propagation采用了一个Grid-Propagation来重复校正对齐的准确性；更重要的是提出了一个具有二阶马尔可夫性质的跨格点传播机制以及光流引导的可变形卷积对齐模块。通过这3个改进，Basic++取得了SOTA的表现力以及获得了2021年超分挑战赛NTIRE.

2022-05-10 12:00:39 7496 4

原创论文笔记之Understanding Deformable Alignment in Video Super-Resolution

这篇文章是2021年的AAAI，和EDVR、BasicVSR、BasicVSR++是同一批作者。文章最重要的贡献在于①用一个统一的数学表达式去归纳flow-based对齐(如TSTN)和flow-free对齐(如TDCN)；②得出了两种对齐方式高度相似性；③推出了offset-fidelity作为loss来缓解DCN训练不稳定的问题，这也为后续使用DCN来做对齐的VSR方法解决了后顾之忧。此外，文章还提出了一些关于对齐方面的小知识点，并通过实验进行验证。总的来说，虽然这篇文章的提出的大部分内容大家之前就都.

2022-05-09 11:41:00 1543

原创深度学习之DCN-v2

这篇文章发表在2019的CVPR上，是Deformable Convolution Network的进阶版本——DCN-v2，通过对DCN的两处改进来增加卷积神经网络的适应性与灵活性。具体来说，通过堆叠多个DCN来增强感知的范围；通过引入调制机制来为DCN增加更多选择采样区域的自由度，这种调制通过门机制来实现对采样区域的注意力。Deformable ConvNets v2: More Deformable, Better ResultsAbstract1 Introduction2 Focus poin.

2022-05-03 16:12:45 6300

原创超分之BasicVSR

这篇文章是2021年的CVPR，文章作者是和EDVR同一批的人。该篇文章提出了一个轻量且高表现性能的视频超分framework——BasicVSR。BasicVSR改进了传统VSR结构中的propagation和alignment部分，分别提出了一个双向视频流的循环结构以及基于flow-based的feature-wise对齐方法。此外，在BasicVSR的基础上，作者进一步对propagation和aggregation进行优化，产生了一个更高表现性能的VSR结构——IconVSR。参考目录：①Ba.

2022-05-02 23:06:51 6393 1

原创超分之DRCN

这篇文章是2016年的CVPR，虽然目前来说在性能和计算效率上并不佳，但是在当时来说是一种通过较少模型参数加深网络来提升SR表现力的新方法——Deeply-Recursive Convolutional Network(DRCN)。不同于通过增加卷积层数来加深模型，DRCN通过一个递归子模块在共享模型参数下加深网络(类似于循环神经网络RNN)，从而可以提取到更多不同层级的用于重建高分辨率图像的特征。参考文档：①文章转载于博主暖风的一篇文章——超分算法DRCN。Deeply-Recursive Con.

2022-05-01 13:47:45 1870

原创超分之EDVR

这篇文章是2019年在视频超分领域上的作品，由商汤联合实验室出版。作者推出的EDVR参考文档：①源码②REDS数据集③视频超分：EDVR④论文笔记之EDVREDVR: Video Restoration with Enhanced Deformable Convolutional NetworksAbstract1 Introduction2 Related Work3 Methodology3.1 Overview3.2 Alignment with Pyramid, Cascading an

2022-04-27 17:45:30 4869 3

原创超分之RDN

这篇文章提出了一种结合ResNet结构和DenseNet结构的深度超分网络——Residual Dense Network(后文简称RDN)。RDN基于Residual Dense Block(后文简称RDB)块以及全局残差连接来提取全局特征，而RDB块基于Dense结构和局部残差连接进一步提取局部特征。通过这种结构，作者最大化利用了LRLRLR不同层级的特征，在当时取得了SOTA的表现力。Note：这篇文章和RCAN是同一批作者。参考文档：转载于博主暖风博文：超分算法RDNResNet.

2022-04-25 16:41:39 3236

原创超分之Robust VSR with Learned Temporal Dynamics

这篇文章是2017年的ICCV。基于经典的VSR框架，作者在对齐网络和时间融合超分网络上都做了一定的该进。其中对齐网络采用了STN的一个变体；对齐后的SR网络使用了结合注意力机制的，可自动选择时间尺度的时间自适应网络，这个超分结构在当时取得了SOTA的表现力。Note：这篇文章提出的结构没有一个简洁的名字，导致其他文章在引用的时候就直接写作者的名字——“Liu”。因此为了本文后面介绍方便，简称作者提出的这个结构为：LTD。参考文档：①视频超分辨论文解读之Rubost Video Super-R.

2022-04-23 22:44:52 3217

原创超分之TDAN

这篇文章是视频超分(VSR)中flow-free的代表作，不同于VESPCN中采用flow-based，即光流估计方法来对齐相邻帧的做法，本文作者推出的TDAN采用隐式的运动补偿机制，利用可变形卷积重建出非参考帧(支持帧)的估计值，最后使用和VESPCN类似的融合机制实现当前参考帧从LR→HRLR\to HRLR→HR的过程。Note：TDAN这篇文章的核心主要是介绍一种在视频超分方法TDAN，其使用一种新的基于DCN的flow-free的对齐方法，但并没有提出新的融合fusion方法。参考文..

2022-04-22 11:34:50 1776 1

原创超分之RCAN

这篇文章是2018年的ECCV，作者主要是为了介绍注意力机制在超分领域的应用以及基于注意力机制的这个SR网络——Residual Channel Attention Networks(后文简称RCAN)。RCAN是一种基于Residual In Residual(后文简称RIR)结构的深度网络，他利用残差网络的特性来加深网络；RIR由多个Residual Groups(后文简称RG)组成，每个RG由多个Residual Channel Attention Blocks(后文简称RCAB)组成；而每个RCA.

2022-04-19 21:36:50 5867

原创超分之FSRCNN

这篇文章是SRCNN作者在SR网络结构、超参数配置等大大小小多个方面的优化，从而实现了加速版SRCNN——FSRCNN超分网络结构，其具有real-time的优势，且在表现力上也胜过SRCNN。FSRCNN发表于2016年，其结构中的一些思想在如今超分网络的设计中仍具有很多可以启发的点。Note：文章转载于博主暖风的超分算法FSRCNNN:Accelerating the Super-Resolution Convolutional Neural Network 图像超分辨率重建。此外，本文标注了.

2022-04-17 16:34:58 4159

原创深度学习之DCN

这篇文章介绍了一种可针对空间不变性的卷积方法，不同于常规的卷积网络种卷积核和待提取feature map是相同的(假设dilation=1)，可变形卷积(Deformable Convolution Networks)的待提取feature map可能是任意变形之后的一个个采样点。DCN的提出使得网络不再对经过变换之后的输入敏感，即增加了空间不变性。Note：本文只介绍论文中的可变形卷积部分，而没有介绍论文中的可变形ROI池化部分。参考目录：①深度学习可形变卷积②源码③深度学习之 DCN（.

2022-04-15 17:22:26 7871 2

原创超分之VESPCN

这篇文章不再是只针对Single-Image做超分，而是主要为了提升视频的分辨率；本文由Twitter推出了一种称之为VESPCN的网络结构，主要利用运动估计模块和时序空间模块来对连续帧输入做超分。VESPCN是第二代ESPCN，解决了ESPCN无法利用视频具有高度时间冗余的特点，因此VESPCN将ESPCN升级成Spatial-Temporal-sub-pixel卷积网络，并结合运动补偿完成视频超分任务，此外VESPCN在single-Image上可以减少一定程度的资源消耗。参考目录：①深度学习端到.

2022-04-14 11:50:40 1933 3

原创超分之SR-LUT源码解析

这篇文章是2016年发表在ECCV上的一篇SR文章，是SRCNN的进阶版——Fast-SRCNN，由SRCNN的同一个作者所发表。Accelerating the Super-Resolution Convolutional Neural NetworkAbstractAbstract是

2022-04-09 22:56:55 4391 8

原创 Pytorch之Rot旋转

整理记录一下PyTorch中旋转函数rot90的使用方法。参考目录：①PyTorch官方用法torch.rot901 使用背景2 函数简介3 实战效果3.1 顺时针旋转90°3.2 逆时针旋转90°3.3 逆时针旋转180°3.4 逆时针旋转前2个维度1 使用背景对于一个nnn维张量，如果想要对某2个维度进行旋转，可以调用torch.rot90()函数。2 函数简介调用格式：torch.rot90(Tensor, k, dim)Note：第一个形参Tensor是你准备进行旋转的张量.

2022-04-07 15:29:53 5096 1

原创 PyTorch之PixelShuffle

这里介绍一下PyTorch中torch.nn.PixelShuffle()这个层的背景介绍和相关用法。参考文档：①PyTorch中的PixelShufflePixelShuffle层1 背景介绍2 用法简介2.1 实战代码2.2 效果展示1 背景介绍PixelShuffle层又名亚像素卷积层，是论文Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural .

2022-04-05 13:03:49 10494 2

原创论文笔记之STN

这篇文章是15年谷歌DeepMind团队推出的一个可以学习一种变换，这种变换可以将进行了仿射变换的目标进行矫正的网络——Spatial Transformer Network(STN)。STN具有空间不变性特点，也就是说STN可以使图片经过各种变换后的识别效果和未变换前的识别效果保持不变。Note：空间不变性：旋转、平移、缩放、裁剪不变性。传统的池化方式(Max Pooling/Average Pooling)所带来卷积网络的位移不变性和旋转不变性只是局部的和固定的(池化的大小一般都很小，比如3×.

2022-04-03 13:52:01 4345 1

原创超分之ESPCN

这篇文章推出了一种具有亚像素卷积层结构的SR算法——ESPCN；相比于SRCNN直接对HRHRHR领域像素做卷积，ESPCN是直接对输入LRLRLR像素做特征提取，在当时来说，可以算是一种提高计算效率的有效途径。参考文档：①Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural NetworkAbstract1 Introduction2 Method2.1.

2022-03-31 21:30:08 7033

原创超分之SR-LUT

这篇文章是2021年CVPR会议论文，核心思想是用CNN网络训练一个LUT-Based的超分方法；由于表中存储了输入像素对应的HR像素值，故在测试的时候，我们只需要从表中进行读取(当然实践中还会增加插值操作，后续会讲到)。这篇文章是查表法在SR领域的首篇应用，推出的SR-LUT算法以快速实现LR→SRLR\to SRLR→SR为特点，当然也存在着一些可改进点。参考文档：①源码(Pytorch)②【CVPR2021】Practical Single-Image Super-Resolution Usi.

2022-03-25 12:00:09 5460 2

原创超分之EDSR

这篇文章是SRResnet的升级版——EDSR，其对网络结构进行了优化(去除了BN层)，省下来的空间可以用于提升模型的size来增强表现力。此外，作者提出了一种基于EDSR且适用于多缩放尺度的超分结构——MDSR。EDSR在2017年赢得了NTIRE2017超分辨率挑战赛的冠军。参考目录：①深度学习端到端超分辨率方法发展历程②【图像超分辨】EDSR③源码(Pytorch)④源码(Facebook-torch)⑤源码(Tensorflow)Enhanced Deep Residual Netw

2022-03-22 11:31:20 27507 1

原创深度学习之Inception-ResNet

这篇文章由谷歌在17年提出，收启发于何凯明提出的ResNet在深度网络上较好的表现影响，作者将Residual connection加入到Inception结构中形成2个Inception-ResNet版本的网络以及一个纯Inception-v4网络。参考目录：①：论文补充版本(主要是补充一些图)②：从Inception v1到Inception-ResNet，一文概览Inception家族的「奋斗史」③：论文笔记1④：论文笔记2截至这篇文章发表，谷歌提出的关于Inception块组成的Goog

2022-03-21 10:30:43 11618

原创超分之一文读懂SRGAN

这篇文章介绍SRResNet网络，以及将SRResNet作为生成网络的GAN模型用于超分，即SRGAN模型。这是首篇在人类感知视觉上进行超分的文章，而以往的文章以PSNR为导向，但那些方式并不能让人眼觉得感知到了高分辨率——Photo-Realistic。参考目录：①：SRResNet概要②：深度学习端到端超分辨率方法发展历程③：GAN-李宏毅④：GAN的理解(内含③中PPT)⑤：Pytorch源码Photo-Realistic Single Image Super-Resolution U.

2022-03-18 21:23:44 23800 5

原创超分之SRDenseNet

这篇文章的总体网络架构和DCSCN这篇很类似：通过构建一个具有skip connection结构的end-to-end的CNN网络。文章推出的新模型被称之为SRDenseNet，其利用Dense块作为基本结构，使用skip connection来结合低层特征信息和高层特征信息，然后通过反卷积网络进行图像重建，从而实现LR→HRLR\to HRLR→HR的转变，并且也说明不同深度层的特征之间包含的信息是互补的。参考文档：①深度学习端到端超分辨率方法发展历程Image Super-Resolution.

2022-03-15 21:59:38 3817

原创从RCNN到ATSS

低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略基本概念：IOUmAPNMSgroundtruthfeaturemapanchor boxanchor-freetop1、top5AR（averagerecall）object detection papersRCNNFast-RCNNFaster-RCNNSPPn...

2022-03-14 15:08:17 704

原创超分算法之SRCNN

这篇文章是2014年的一篇论文，其主要意义在于作者推出的SRCNN是深度学习在超分上开篇之作！SRCNN证明了深度学习在超分领域的应用可以超越传统的插值等办法取得较高的表现力。参考目录：①深度学习图像超分辨率开山之作SRCNN（一）原理分析②深度学习端到端超分辨率方法发展历程SRCNN1 SRCNN简介2 SRCNN模型结构3 Loss function：4 实验4.1 setup4.2 实验结果4.2.1 performance4.2.2 runtime5 进一步研究5.1 滤波器学习情况5.2.

2022-03-14 11:41:12 17319 8

原创 NLP基础

NLP基础Word2vecword2vec概念词向量发展历程语言模型Word2vec模型Seq2SeqTransformerWord2vec参考：①Word2vec知其然知其所以然或者花书实战篇②知乎-word2vec③B站视频-word2vec④Efficient Estimation of Word Representations in Vector Space⑤Distributed Representations of Words and Phrases and their Comp.

2022-03-12 22:06:10 1828

原创论文笔记之DCSCN

这篇文章介绍了一种轻量级全CNN网络的Super-Revolution(超分)算法。参考文档：①DCSCN论文阅读笔记自适应parametric ReLUParametric ReLUPSNR&SSIMFast and Accurate Image Super Resolution by Deep CNN with Skip Connection and Network in NetworkAbstract1 Introduction2 Related Work3 Proposed M.

2022-03-12 17:00:05 3679

原创 NLP之Transformer

总体来看，Transformer这个模型架构还是遵循着Encoder-Decoder的格式。此外，Transformer由注意力机制模块组成，因此在学习Transformer之前有必要对注意力机制有个了解(点这里)。参考文档：①：Transformer模型的PyTorch实现TransformerSelf-attentionScaled dot-product attentionMulti-head self-attentionResidual connectionPositional Encodi.

2022-03-10 10:08:00 1424 1

原创 NLP之Seq2Seq

参考文档：①Seq2Seq简介1②Seq2Seq简介2③莫烦pythonNLP1 Seq2seq1.1 最简单的Seq2Seq结构1.2 具体例子1.3 损失函数1.4 优化(Beam Search)1.4.1 贪婪搜索1.4.2 穷举搜索1.4.3 束搜索2 Attention(注意力机制)2.1 注意力机制的引入2.2 注意力机制2.3 背景变量的计算3 展望1 Seq2seqSeq2Seq，又名编码器-解码器(Encoder-Decoder)，是一种输入为序列，输出也是序列的网络结构。.

2022-03-07 23:13:06 1448 2

原创论文笔记之Efficient Estimation of Word Representations in Vector Space

这篇文章可以作为入门Word2vec的一篇论文，文章发表于2013年，其提供了NLP发展至今过程中比较著名的词向量模型之一，即skip-gram和CBOW模型。参考：①B站视频②论文Efficient Estimation of Word Representations in Vector Space1 Previous Model Architectures1.1 Feedforward Neural Net Language Model(NNLM)1.2 Recurrent Neural Net

2022-02-28 15:19:47 2246

空空如也

空空如也