光场超分辨率论文笔记

数二150种子选手

已于 2023-08-25 20:41:09 修改

阅读量1.9k

点赞数 2

分类专栏：人工智能文章标签：论文阅读深度学习计算机视觉

于 2023-02-28 21:38:12 首次发布

本文链接：https://blog.csdn.net/qq_42403145/article/details/129270360

版权

人工智能专栏收录该内容

3 篇文章

订阅专栏

文章介绍了光场图像的超分辨率方法，包括角度和空间超分网络的设计，如LFT、LFCNN、LFSR等，强调了视差估计、特征融合和光场混合在重建过程中的重要性。这些方法利用CNN、Transformer结构以及残差学习来提高光场图像的细节和清晰度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

一、
二、LFT
三、
四、LFCNN
五、LFSR
六
七
八
九
十
十一
十二
十三
十四、An Epipolar Volume Autoencoder with Adversarial Loss for Deep Light Field Super-Resolution
十五、Learning Sheared EPI Structure for Light Field Reconstruction
十六、Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-Resolution （EPIT）
十七、DistgEPIT: Enhanced Disparity Learning for Light Field Image Super-Resolution
十八、ShuffleMixer: An Efficient ConvNet for Image Super-Resolution
总结

提示：以下是本篇文章正文内容，下面案例可供参考

一、

在这里插入图片描述

网络大体结构是先将稀疏采样的光场图像的Y通道作为输入，首先通过视野合成网络，进行角度超分，合成中间形态的SAIs，并将新SAIs和输入的SAI通过一个reshape concat层进行拼接。然后将拼接好的图像通过视野精细化网络进行空间超分。将超分后的结果和中间形态的SAIs进行逐像素相加（sum）。
视野合成网络：为了减少参数量和计算量，本文将部分4D卷积转化成2D的空间角度交替卷积来实现。只有初步特征提取部分，由于参数量较小，所以还是采用4D卷积。交替卷积的数量可以灵活设置，但是训练时间随着交替卷积的数量增加而线性增长。
视野精细化网络：本文没有采取普通的残差学习，而是采用的是guided residual learning。因为输入的参数包括部分ground truth，残差为0所以对这部分图像就没必要残差学习了，只需要对视野合成网络中合成的中间状态SAIs进行残差学习就行了。采用stride为2的4D卷积。

二、LFT

在这里插入图片描述

在这里插入图片描述
网络的主要结构主要由三部分组成：初始特征提取，基于Transformer的特征合并，上采样。
Angular Transformer：输入的光场图像首先通过3×3的级联卷积产生初始特征

特征F首先reshape成

HW代表batch dimension，Na=UV代表序列长度da代表embedding dimension。令Value Va等于Tang，即
在这里插入图片描述
位置信息Pa和Tang加起来通过layer normalization从（LN）层形成query Qa和key Ka，即

然后Qa，Ka和Va通过multi-head self-attention（MHSA）层并与Tang进行残差学习得到T’ang，即

为了进一步合并由MHSA产生的信息，token进一步被馈送到一个feed forward network（FFN），这个层包括了一个LN层和一个multi-layer perception（MLP）层，得到T^ang，即
在这里插入图片描述
最后T^ang被reshape成U×V×H×W×C并进一步馈送到随后的spatial Transformer进行空间上下文信息的合并。
Spatial Transformer：输入特征F首先在相邻3×3邻域内展开，然后被馈送到一个MLP层来实现local feature embedding，即

然后将局部组合特征裁剪为spatial token，即
在这里插入图片描述
其中UV代表batch dimension，Ns代表序列的长度，ds代表embedding dimension。和angular Transformer类似计算Qs，Ks，Vs

和angular Transformer类似

然后T^spa被reshape成U×V×H×W×C，然后馈送到下一个angular Transformer中。当通过和所有的Transformer，角度和空间信息都被充分合并。最后用pixel shuffer来进行上采样，形成超分辨率的光场图像。

三、

在这里插入图片描述

网络结构主要包括All-to-One SR模块，通过融合来自其他视图的组合嵌入来超分辨率每一个视图的光场图像，以及一个结构一致性正则化模块，来重建光场图像的视差结构
All-to-One SR module：分为四个子部分（每个视图的特征提取、组合相关学习、所有视图的合成、上采样）。特征提取部分包括一个卷积层和若干个残差块，如图所示，绿色部分是要待超分的参考图像的特征，剩下的蓝色部分是辅助视图的特征特征提取部分权重共享。组合相关学习就是把提取的每一个辅助视图的特征，嵌入到参考视图，具体操作是把两个特征对通过concatenate操作连接起来，然后通过一个卷积层和和若干个残差块。All-view fusion部分不是所有特征融合，而是先按照通道组合，也就是说把同一通道的特征组合起来，然后所有的通道被用来提取更深的特征。由一个卷积层，一部分用于通道视图融合的残差块和一部分用于通道融合的残差块。Upsampling部分和其他论文比较类似，一个卷积层，一步亚像素卷积，在一个卷积层，最后把得到的残差映射进行残差学习，得到中间结果。
Structural Consistency Regularization：为了调整视差结构，最初的方法是4D或者3D卷积，但是这里为了减少参数量和计算量从而提高效率，我们采用2D的空间角度交替卷积。先通过一个卷积层，再使用若干个空间角度交替卷积。空间角度交替卷积就是先把中间结果reshape，进行空间卷积，再reshape，再进行角度卷积，再reshape进行下面剩下的交替卷积。

四、LFCNN

在这里插入图片描述

角度超分时，水平通过两边合成中间

垂直，也是通过两边合成中间

最后通过四个角上的图像对合成中间图像

网络结构主要由一个空间超分网络和一个角度超分网络构成。
空间超分网络：由三个卷积层构成，每一层分别由64个大小为9×9×n，32个大小为1×1×64，和n个大小为5×5×32的卷积核构成。前两层卷积完成后经过ReLU层处理。将输入图像先按照期望的放大倍数进行初始插值，然后把输入图像馈送到网络中。
角度超分网络：也由三个卷积层构成，每一层分别由64个大小为9 × 9 × n, 32 个大小为5 × 5 × 64，一个大小为5×5×32的卷积核构成。前两层卷积后由ReLU层处理。
关于先空间再角度还是先角度再空间，本论文通过实验得出的结论是先空间再角度。因为低空间分辨率的SAI图像被馈送到角度超分网络中导致低分辨率图像的细节在新视图中没有很好的定位，因此新视图中的细节导致通过空间超分网络的不准确的边缘和点。另一方面，空间–角度超分方案会产生更好的图像，因为定位模糊性被减少。

五、LFSR

在这里插入图片描述

透视图象的空间分辨率由透镜的大小和数量来控制。当图像传感器的大小被固定时，可以通过减小透镜的大小来增加空间分辨率。当透镜大小固定时，可以通过增加透镜的数量增加空间分辨率。叫分辨率由透镜后面的像素数量来决定。
网络结构如图5，包括两步，先角度超分再空间超分。相比于其他论文，本论文是在原始光场图像也就透镜区域进行处理的，不是处理的透视图象。
角度超分网络（如图6）：包括两个卷积层和一个全连接层，卷积层之后紧接着一个非线性激活层。第一层提取高维特征向量，第二层把高维特征映射到另一个高维向量上去。最后一个全连接层聚集最后一层的特征并预测结果。
空间超分网络（如图7）：和角度超分网络类似，也有两层卷积层，每层跟着全连接层，最后是全连接层。不同的是，空间超分网络将四个透镜区域叠加起来作为输入。最后有三个输入，分别对应这水平位置，垂直位置，对角线位置。
在这里插入图片描述
预测三个输出的方式：如图8所示。从每个透镜区域挑选一个像素，并把所有挑选的像素按照原来的位置排列好。用四个透镜区域，用网络预测三个额外的像素，然后预测的像素和被挑选的像素形成更高分辨率的透视图像。

六

在这里插入图片描述
前置知识（视差图Disparity map，深度图 Depth map，图像扭曲 Imgae Warping，forward warping，backwards/inverse warping）
参考以下博客
https://blog.csdn.net/qq_41794040/article/details/128082745?spm=1001.2014.3001.5506

想象自己睁开左眼，闭上右眼看到的图像和睁开右眼，壁上左眼看到的图像是不同的，也就是会有视差问题。

在这里插入图片描述
而且视差和物体的深度是成反比的。左右眼看近处的东西的差距是比较大的，看远处的东西，基本上没有什么差距。

在这里插入图片描述
P是物体，Ol和Or是两个相机，两个红色横线是成像平面，Z是深度，B是两相机之间的位置，f是焦距，视差定义为d=xl-xr，假设pp’的距离是d。由于相似三角形，可以得出（Z-f）/Z=b/B，（Z-f）/Z=（B-d）/B，所以可以得到Z=Bf/d。

在这里插入图片描述

forward warping：从原图的像素乘上一个仿射矩阵找到它在新图像中的位置，如果结果不是整数就四舍五入。缺点，会产生一定的空洞，图片不完整。
reberse warping：从新图像中的像素乘上另一个放射矩阵，找到它在原图中的位置，如果结果不是整数，则采用插值近似的方法进行处理，就不会产生图片不完整的情况。

在这里插入图片描述
方法的主要步骤是根据一系列稀疏的输入视图（Lp1，Lp2…Lpn）和新视图q来估计新视图Lq，公式中pi和q表示SAI中的角度坐标，f表示输入视图和新视图的关系。如果直接通过CNN来硬学的话，会产生比较模糊的结果，因为这个关系f是比较复杂的。网络分为两个部分，视差估计和颜色估计，首先从稀疏的输入视图中提取的特征来估计视差。
在这里插入图片描述
公式2中，Dq代表视差，K代表提取的特征，gd代表特征和视差之间的关系。然后，通过基于新视角下的视差对输入图像进行采样来进行backward warp。最后，使用包括所有扭曲图像、估计视差和新视图位置的一组输入特征来估计新视图处的图像
在这里插入图片描述
公式3中，Lq代表新视图，H代表这些特征集合，gc代表这些特征和最后新视图之间的关系。

网络结构如Figure3所示。

Disparity Estimator：对于新视图图像的每一个像素，视差Dq指向每一个输入视图的对应像素。
在这里插入图片描述
公式4中，s是像素位置在xy方向上的向量，pi和q是输入视图和新视图在uv方向上的向量。Lpi-代表Lpi用视差Dq经过backward warp过后的图像。
首先用一些预先定义的disparity levels d1…dL来把输入视图扭曲到新视图

公式5中，i是从1到N，l是从1到L，然后计算扭曲后的输入图像在每个disparity level上的mean和standard deviation，分别记作Mdi，Vdi。然后通过将每一个disparity levels的mean和standard deviation concat起来产生输入特征
在这里插入图片描述
也就是说，如果有100个disparity levels，特征向量就有200个通道。

Disparity Estimator的结构如图Figure 5，包含4个卷积核逐渐减小的卷积层，除了最后一层都跟着一个非线性激活。

Color Predictor：
这个部分是用视差估计最后的颜色。现有的视图合成方法通常比较简单，而且由于遮挡等原因不能建模扭曲后图像和最后合成图像的关系。本论文呢是学习这种关系。用扭曲后的图像、估计的视差、新视图的位置这些输入特征来估计最后的图像。特征向量为
在这里插入图片描述
视差用来检测遮挡边缘和从这些区域附近的扭曲图像收集适当的信息。新视图的位置也可以潜在的用于在重建新视图时对特定图像进行更多加权。如果p和q两个视图位置比较接近，那么重建q时，p的权重就会比较大。
网络类似于视差估计部分的深度网络。但是输入和输出的数量不同，这里输入又3N+3个通道，输出是3个通道的RGB图像。

七

在这里插入图片描述

网络主要分为三个模块：深度估计fd、扭曲fu、光场混合fh。首先是从广场中的每个视图估计一个深度图。然后通过扭曲输入视图来产生新视图，给出扭曲光场的集合。但是由于深度估计误差、遮挡等原因，扭曲图像不可避免的存在失真等现象。以往的混合方法是结合不同视图的扭曲图像来单独生成新视图，而本论文提出的光场混合策略，探索扭曲光场的角度信息来保护重建广场的几何结构。
深度估计：
在这里插入图片描述
公式2中D代表4维光线深度，L代表输入视图。网络包括9个卷积层，除了最后一层之外，每一层都跟着一个非线性激活层。为了更大的感受野，所以前两层用7×7的卷积核，膨胀率为2。在之后的卷积层中，卷积核缩小到5×5和3×3。这样设置让感受野大小满足了输入视图的视差范围。
扭曲：
在这里插入图片描述
新视图可以通过扭曲输入视图来合成。公式4中，W代表通过扭曲u’处的输入视图而产生的角度位置u处的新视图。

公式5是扭曲阶段的误差损失，还没太搞懂是怎么组成的。
光场混合：
从输入视图扭曲的光场会存在失真，一是深度估计不能准确的预测光线深度，特别是一些无纹理的区域和重复图案的区域。由于没有ground truth的监督，所以很难解决。二是即使使用ground truth，扭曲算子也会在遮挡区域引入误差，因为在输入视图中找不到原像素。
现有的方法是用连续的2维空间卷积从不同的输入视图中混合图像来产生最后的重建，这种方法叫“view blending”。这种方法不太好，因为没有考虑到EPI的线性几何结构。本文采用light field blending。这种方法的中心思想是探索扭曲视图之间的角度关系来恢复EPI的几何结构。
网络结构采用卷积层，先用普通卷积提取特征，然后采用空间-角度交替卷积，为了增大感受野采用膨胀卷积。最后使用3层3维卷积来重建残差图。
在这里插入图片描述

公式7是这部分的损失，采用最小化预测光场的重建误差。

EPI gradient loss：
为了保护光场平行结构，本文采用一种基于EPI梯度的新型损失。
在这里插入图片描述
损失是从预测的和ground truth 光场之间重建的EPI的梯度之间的距离。

最后的总目标是最小化这三个损失。

八

在这里插入图片描述
用I（W×H×M×N）代表一个稠密采样光场，包含M×N个空间分辨率为W×H的SAI。用U代表角度坐标的集合，U={u|u=（u，v),1<=u<=M，1<=v<=N}。在u处的SAI别表示为I_u。用I_s代表一个有K个SAI的稀疏采样的光场，P是I_u的角度坐标，P = {p_k|p_k = (u, v), 1 ≤ k ≤ K}，I_pk是在p_k位置处的I_s。未采样的SAI，属于I但是不属于I_s，被表示为I_s-={I_ql|q_l∈Q = U\P, 1 ≤ l≤ MN−K}。
在这里插入图片描述

网络包括两个模块：稀疏SAI合成网络和光场精细化网络。稀疏SAI合成网络独立的产生新的SAI，产生中间状态的密集采样的光场图像。然后精细化网络学习中间状态图像的残差，并产生最终输出。
我们方法有以下特征：

本方法克服了由于稀疏采样造成的混叠问题，让网络可以用不同角度采样率作为输入。
它让SAI可以用任意角度采样模式作为输入，给密集采样广场重建带来灵活性。而且本文优化了采样模式来提高重建质量。
它可以产生用户定义的角度分辨率的密集采样光场，让光场重建更有灵活性。
它可以更精确的恢复光场视差结构，对于一些光场的应用很重要。

Coarse SAI Synthesis：该模块分为三部分：PSV重建、视差估计、扭曲和混合。
PSV construction：
Disparity estimation：网络包括一个cost calculator来学习每一个视差平面的匹配成本，还包括一个估计器来预测视差值。
cost calculator由一些共享权重的卷积层构成。卷积核大小为5×5，来获得相对大的感受野，并设置最后一层通道为4。
对于视差估计器，把每一个视差平面的特征都被concat起来。然后是一些连续的卷积层来预测视差值。隐藏层通道的数量一开始设置为200，后来减少到64，32，16和1来输出视差映射。
Warping and blending：目标位置的新SAI可以通过用预测的视差映射来扭曲输入的SAI来合成。因为通过简单的平均和卷积层直接的结合在不同视点扭曲的图像会产生模糊的结果，所以本文通过用confidence maps来进行融合图像。对应于K个输入SAI的K个confidence maps沿着视差图一起由视差估计网络的最后一层来预测。

Efficient LF Refinement：该网络用来恢复photo-consistency和进一步提高稠密采样光场的重建质量。首先通过角度空间交替卷积，减少计算量并提取空间和角度信息。然后探索角度维度之间的关系。然后采用2D空间卷积来学习残差映射。这里每个SAI都是单独被处理的，原因由两个：前面提取的空间角度信息足够来探索LF的残差结构；这样可以构建一个全卷积的网络，能够更灵活的输出角度分辨率。最后残差和中间状态的光场图像加起来作为最后的输出。

九

在这里插入图片描述

网络主要分为三部分：孔径视差图估计，扭曲置信图估计，图像精细化过程。
Aperture Disparity Map（ADM）指的是相应像素的空间移位。
不同视点之间的距离Δu和视差Δx之间是线性的关系，所以可以通过其他视点的图像来估计目标图像，然而图像中的某些点可能存在遮挡等因素，但是光场的一个特性是，一个被遮挡的像素总能出现在最左边或者最右边的图像上，也就是边缘的图像。所以可以通过两个边缘的图像来估计目标视点的图像。然后RDN有一些比较好的特性比如：可以使模型变得更加紧凑、防止过拟合、每一层还能单独接受来自损失函数的监督。所以本文使用RDN来进行ADM和WCM的估计。把两个边缘图像输入到DenseNet中估计两个边缘ADM，然后通过公式计算中间ADM然后把ADM和两个边缘图像馈送到另一个DenseNet估计置信图，然后通过置信图来合成目标图像，然后通过精细化网络。精细化网络为了减少计算量，采用的伪四维卷积，也就是空间角度交替卷积。

十

在这里插入图片描述

网络主要分为三部分：动态学习权重，基于置信图的混合，基于几何的优化。
Dynamic Weight Learning：与之前常用的扭曲操作不同，本文采用动态插值，通过对目标像素在原图像的像素的邻域内所有像素进行加权和来和成目标图像的像素。加权和是由一个MLP（多层感知器）来产生的。输入MLP的内容是一些embedding。由四部分组成，Geometry code，Spatial code，Angular code，Content embedding。Geometry code是输入图像的视差值，Spatial code，Angular code表示输入图像和目标图像对应像素的空间和角度距离，Content embedding的产生先基于视差把另一个输入的SAI backward warp为输入SAI，然后把该输入的SAI、该输入的SAI的视差、另一个输入的SAI的扭曲结果concat起来，通过sub-CNN处理生成content embedding。最后把这四个embedding concat起来。
Confidence-based Blending：首先把目标图像每一个像素在原输入SAI图像中的像素的相邻位置的geometry 和content embedding 给concat起来，馈送到另一个MLP中，产生置信图。然后从其他输入SAI中合成的SAI与置信图逐像素相乘，然后求和，得到中间结果。
Geometry-based Spatial Refinement：通过中间结果的patch定位到它在输入SAI中相似的patch。做法是：首先通过forward warp 视差来估计中间结果的视差图，然后通过把patch里面所有像素求均值来计算patch-level的视差。然后通过这个patch-level的视差来估计patch中心像素在输入SAI中的位置。然后基于这个估计的中心位置，我们可以获得相应的patch。然后恢复像素之间的空间关系，做法是：把中间结果的patch和它在每个输入SAI中相应的patch 给concat起来，馈送到一个sub-cnn中来预测残差。最后合并优化的patch来产生最终预测的新SAI。

十一

在这里插入图片描述

本文既实现空间SR，又实现角度SR。网络的总览如图1，对于空间超分网络，输入为3×3的SAI，对于角度超分网络，输入为2×2的SAI。
空间超分：分为三部分“多视点特征提取”，“AFR”，“上采样”。把要超分的SAI看成I₅，先提取I₅的8个邻域的图像的特征以及用一个单视差估计器来估计I₅和邻域图像之间的视差。视差估计器由三个连续的卷积模块组成，每个模块由三个卷积层构成。利用视差对提取的特征进行backward warp，形成特征S。但是存在一个问题，如果I₅在SAI 的边缘的话，邻域图像会不足8个，传统的方法是针对多种情况分别训练网络，存储效率和计算效率低，而本文采用AFR，对于I₅的不同位置，只改变网络的部分，不改变整个网络。首先是对于邻域不足8的图像，缺失的图像用虚拟图像填充，也就是像素值为0。AFR的过程如图3，分别是I₅在top left和top的位置的示意图。本文规定，仅仅当i是j的8个邻域之一时，S_i才会影响S_j。即S₁只受S₂，S₄，S₅的影响。S₂受S₁、S₃、S₄、S₅、S₆影响，其他的情况类似。
在这里插入图片描述
这是AFR的公式表示，S~的特征向量由W矩阵和C矩阵逐像素相乘再和S的特征向量相乘构成。W矩阵是一个可训练的矩阵，C是一个二值矩阵。当情况不同时，只需要改变W和C 的乘积，不用改变整个网络，提高了存储和计算效率。最后经过Spatial SR generator处理生成高空间分辨率图像。结构包括两个卷积层，两个Dense模块，三个卷积层，一个pixel shuffle和两个卷积层。
角度超分：角度超分的多视点特征提取和AFR部分和空间超分的差不多，最后采用Blending filter generator而不采用空间超分产生器。由于没有中心视点的图像，我们用相对中心视点对称的两个输入SAI之间的视差的一半来近似代替中心视点图像和邻域图像的视差。通过AFR remix的特征，通过Blending filter generator产生混合滤波器，然后和扭曲的输入图像进行叠加产生中间状态图像。

十二

在这里插入图片描述

如果视差过大，会使角度域欠采样从而损害角度域的高频细节，而空间的信息是完整的。角度和空间信息的不对称性，会导致伪影。为了解决这个问题，本文先用一个模糊核来提取空间低频信息，然后用双三次插值上采样到期望的角度分辨率，然后用一个卷积神经网络恢复EPI在角度域的细节。最后用non-blind deblur操作恢复EPI的空间细节。选模糊核的时候要遵循两个原则：最后去模糊的结果要保留视觉一致性，模糊的低角度分辨率的EPI和模糊的EPI的ground truth之间的均方误差要尽可能的小。sinc滤波器和Butterworth低通滤波器都会产生环形伪影，而高斯模糊和不会，最后本文采用高斯模糊和。细节恢复的CNN包括三个卷积层，前两个卷积层后经过非线性激活层处理。并进行残差学习。

十三

在这里插入图片描述

对于四维光场，固定维度t，形成Vt∗ (x, y, s)作为网络的输入，首先是使用一个可学习的插值，使用去卷积层处理，然后进行高频信息的恢复。用的是三层的卷积层和残差学习。然后进行角度卷积，转化维度为 Vs∗ (x∗, y, t) 。然后和前面一样，使用去卷积层进行上采样，然后使用三层卷积和残差学习进行细节恢复，形成最后的输出。

十四、An Epipolar Volume Autoencoder with Adversarial Loss for Deep Light Field Super-Resolution

在这里插入图片描述

在这里插入图片描述
网络的输入不是整张图像，而是低分辨率光场的垂直和水平的极平面体。垂直的极平面体由顶部视图和底部视图和中心视图组成，水平的极平面体由最左边、最右边、和中心视图组成。然后经过编码器把低分辨率光场映射到laten variable space。然后再以它为输入产生高分辨率光场。
在这里插入图片描述
encoder有9层，并运用了残差结构。结构如图3左边所示，先经过batch normalization处理，在用3×3×3的卷积处理，若使用了stride卷积，则残差连接的时候，使用卷积核为1×1×1的卷积调整大小。自编码器奇数层增加特征数量，偶数层用stride为2的卷积对特征进行空间缩小。最终是从3×48×48变为3×3×3。解码器先空间超分再角度超分。第一部分也有9层，并生成空间大小相同，但是角度分辨率增加的光场。特征在9个解码路径上进行空间放大，每个解码路径解码一个子孔径视图。先采用双三次插值增加特征值的空间大小，并应用无stride的转置卷积避免产生伪影。
在这里插入图片描述
解码器第二阶段进行空间超分，特征被解码残差块再空间上缩放一次，随后通过其他2个解码残差块，空间分辨率不变。输入特征首先被batch-normalized，再双三次插值之后，特征进行3×3×3的转置卷积。然后每侧添加2个像素，并添加2个视图。最后每侧去掉一个像素以及添加的视图。放大因子为4时过程类似。最后是鉴别器，用于将超分辨输出和ground truth区分开。它结构类似于encoder，但是将两个下采样和特征扩展层组合成一个单层，使网络更浅。

十五、Learning Sheared EPI Structure for Light Field Reconstruction

在这里插入图片描述

首先把低角度分辨率的EPI进行错切，然后把EPIs用插值的方法上采样的期望的角度分辨率，构建一系列错切的EPIs。因为每个像素在图像的深度不同，因此错切的值不同时，沿着角度维度表现也不同，错切值取的好的时候，结构比较清晰。因此使用一个CNN来学习错切EPIs和输出的估计分数之间的关系。输出的分数用来计算fusion tensor，然后fusion tensor 和反错切的EPIs共同重建最后的高角度分辨率EPIs。
Evaluation CNN：
在这里插入图片描述
网络的输入为错切的光场结构。网络的第一部分是编码器部分，由3个convolutional-pooling 层组成，卷积层的通道数为32，64，64。然后是non-linear mapping 层。第三部分是解码器部分，由3个deconvolutional 层组成，并且每一层和前面low-level特征concat起来保证每个空间分辨率之间的数据传输。最后一层是卷积层，通道为1来聚合特征。
Fusion Tensor Calculation：

在这里插入图片描述
CNN的输出是2维结构，每一个SAI，对于不同的错切值d，会有不同的score map，所以每一个SAI对应一个score volume，例如有2×2的光场图像，就有4个score volume。然后对于每一个像素，通过选择合适的错切值，已经经过一个滤波器优化，形成一个2D的map，然后fusion information扩展到每一个视点，构成了dense fusion tensor。然后再形成2D的fusion map用于后续的EPI重建。
EPI Reconstruction：
在这里插入图片描述
输入是反错切的EPI和上一步形成的2D fusion map。反错切EPI分解成一个金字塔，最上面是low-spatial-resolution EPI，其他是residual EPI。然后2D fusion map用来获得一个blending map，然后也分解成一个金字塔。然后混合两个金字塔，并重建成最后的high-angular-resolution EPI。

十六、Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-Resolution （EPIT）

在这里插入图片描述

网络包括三个部分：初始特征提取，深度空间角度相关性学习，空间上采样。
初始特征提取：采用3×3卷积和LeakyReLU作为SpatialConv层来把每个SAI映射到高维特征。
深度空间角度相关性学习：每一个Non-Local Cascading block 由两个级联的Basic-Transformer 单元来合并水平和垂直EPI的互补信息。每个block中的两个Basic-Transformer 单元是共享权重的。
垂直EPI特征通过一个线性投影矩阵W，投影的特征然后通过LN层，获得归一化的tokens（T-ver）。然后，T-ver通过自注意力层，转换到包含垂直EPI上的非局部空间角度信息。其中T-ver要分别乘上WQ，WK，WV，来产生query，key和value。Qver = T-ver×WQ，其他同理。然后
在这里插入图片描述
基于这个注意力分数，子注意力层的输出T’ver可以被计算为value的加权和，即

然后T‘ver再通过一个LN层和MLP，并进行残差连接，即

然后T^ver馈送到线性投影矩阵Wout中，并reshape成UV×H×W×C，并馈送到后面的SpatialConv 层中。
最后采用pixel shuffling 操作提高分辨率，并进一步采用3×3卷积获得超分辨率的LF图像

十七、DistgEPIT: Enhanced Disparity Learning for Light Field Image Super-Resolution

在这里插入图片描述

首先，低分辨率4D光场图像用双三次插值上采样。同时，它也通过一系列卷积核大小为1×3×3的卷积层来获取高维度的特征表示，Finit。卷积层后被Leaky ReLU非线性激活。
然后，初始特征Finit被馈送到一些模块中从EPI中捕获长范围的信息。每一个级联的模块由一些顺序的水平和垂直特征提取器组成。然后，初始特征被转换成MacPI视图，通过一些local correlation mudule来学习严格的相关性。要先使用transformer模块处理特征，再用CNN模块，因为基于局部感受野学习的CNN特征提取器可以摧毁长范围的信息。
经过若干个Non-Local Block处理后的特征，转换成MacPI视图，和转换成MacPI的初始特征一起通过一些卷积模块。
在这里插入图片描述
其中，C是通道数，Gc是group的数量，Bc是block的数量，UV是角度分辨率。
每一个模块包含四个平行的分支，空间、角度、水平和垂直EPI的卷积。假设角度分辨率U=V=A，空间卷积卷积核3×3，dilation 是A，角度卷积卷积核A×A，stride是A，水平和垂直EPI卷积卷积核为1×A^2，stride为A。（和distgSSR那篇论文的卷积核设置相同）
最后的结果由三部分融合而成
在这里插入图片描述
Ub是双三次上采样的原始低分辨率图像，Ut是通过transformer提取的特征经过卷积层上采样的结果，Uc是通过卷积解耦模块经过上采样后的结果，系数分别为1，0.5，0.5。
平时的方法，在切patch的时候，切到边缘区域，会padding，但是这样会破坏光场的结构，于是本文提出Position-Sensitive Windowing，就是切到边缘部分的时候，回溯几个像素。

十八、ShuffleMixer: An Efficient ConvNet for Image Super-Resolution

在这里插入图片描述

这篇文章是大核卷积空间超分的文章。
首先通过3x3卷积提取初始特征，然后通过若干个Feature Mixing Block，然后上采样，再用一个卷积映射上采样的特征。
在这里插入图片描述
Effectiveness of the shuffle mixer layer：baseline是通过10个ConvMixer blocks构建的，把Point-wise MLP之前的BN层替换成LN层，深度卷积核设置为3，通道数32。CSS是应用了channel splitting and shuffling (CSS) 策略，降低了参数量，同时性能也降低了。CDC是使用了两次Projection层。参数量降低的同时，性能核baseline差不多。

Effectiveness of the feature mixing block：以CDC为baseline。首先在两个shuffle mixer layer之后加入3x3卷积，获得了0.13dB的性能提升，然后加一个残差连接，形成S-Conv。残差连接换成concat，形成C-Conv。它们都有一定的性能提升。将卷积换成ResBlock或者FMBConv形成S-ResBlock和S-FMBConv。