CVPR 2021 | 港理工&达摩院提出LPTN:拉普拉斯金字塔变换网络

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

本文转载自:AIWalker

标题&作者团队

paper: https://www4.comp.polyu.edu.hk/~cslzhang/paper/LPTN-cvpr21-paper.pdf

code: https://github.com/csjliang/LPTN

本文是港理工&达摩院张磊团队在image-to-image translation方面继3DLUT之后的又一力作。本文创造性的将拉普拉斯金字塔与深度学习进行了结合,对于拉普拉斯金字塔的分离、重建特性与image-to-image translation之间的共通之处进行了分析,进而提出了本文的LPTN。所提LPTN可以在一个常规GPU上对4K分辨率图像进行实时变换,同时取得与其他方案相当甚至更优的性能。

Abstract

现有image-to-image translation(I2IT)往往要求使用低分辨率图像,这是因为高分辨率图像会导致过大的内存占用与更长的推理耗时。

本文旨在通过拉普拉斯金字塔分解、重建加速高分辨率图像I2IT。具体来说,我们揭示了:属性变换(比如亮度、色彩)与低频成分更相关,而内容细节可以自适应在高频成分上调节。因此,我们提出了Laplacian Pyramid Translation Network(LPTN)同时进行这两个任务:我们设计了一个轻量网络在低分辨率上对低频成分进行变换,然后再词用渐进式掩码策略调整高频部分。所提模型可以避免高分辨率特征图导致的重度计算量问题,同时可以忠实的保持图像细节。

不同任务上的实验结果表明:所提方法可以在一个常规GPU上实时处理4K图像并取得同现有方案相当的性能。

Introduction

laplacian

上图相同场景不同时间拍摄的图像及其对应的低频、高频信息对比图,可以看到:这两个图像的高频区域MSE差异要远远小于低频区域的MSE差异。类似的现象可以从直方图与视觉效果方面得到证明。也就说:高频子图像具有更细分辨率,而不同级别的子图像显示出了像素级相关性,并表现出相似的纹理。这种属性引出一种用于调整内容细节的高效掩码策略。

基于上述发现,我们提出了一种快速且高效的方法LPTN。具体来说,我们次啊用级联残差模块构建了轻量网络用于处理低频成分,对其进行域相关属性变换;为了对低频分量的处理进行拟合,并忠实地进行图像重建,我们自适应地提炼高频成分以避免高分辨率特征导致地重度计算达到提升效率地目的。因此,我们构建了另外地小网络计算掩码并对其逐步上采样。该方案可以通过对抗训练策略采用无监督方式进行训练。

本文所提方法有这样几个优势:

  • 首个可以实时进行4K分辨率图像变换地方案;

  • 在轻量化+快速推理地前提下,所提方法仍可以取得与现有方案相当甚至更好地性能;

  • 定量与定性实验结果表明:所提方法取得了SOTA性能。

Method

lptn

上图给出了本文所提LPTN网络架构示意图,给定输入图像 ,我们首先通过Laplacian Pyramid(LP)将其分解为带通成分集合(表示为 )以及低频残差图像 ,其中L表示LP地分解级数。LP的成分具有越来越小的分辨率:从 的分辨率为 。LP是一种可逆操作,即原始图像可以通过一系列镜像操作重建。H具有高度不相关性:除了纹理细节外,其他区域的灰度值接近0;而 则是模糊结果,即每个像素是局部近邻高斯模糊结果。因此, 反应了图形的全局属性。

受启发于上述LP属性,我们主要在 上进行变换以调整亮度、色彩,而对H进行自适应提炼以避免重建过程中的伪影问题。此外,我们基于低分辨率结果对高分辨率成分进行渐进式提炼。

LPTN框架包含三个主要部分:

  • 首先,我们通过深度卷积将低分辨率 变换为

  • 然后,我们在 基础上学习一个掩码,该掩码将于 相乘以提炼L-1级的高频成分;

  • 其次,为进一步提炼其他更高频成分,我们提出一种高效的渐进式上采样策略。在 级,我们首先上采样上一级的掩码然后通过轻量卷积对该掩码轻微调整。

Translation on Low-Frequency Component

LP的本质属性包含纹理于视觉属性的分离、可逆重建能力,这两个属性非常切合I2IT任务。对于广义纹理调整I2IT任务来说,域相关属性通过深度网络在隐空间及逆行表征。相反,对于逼真I2IT来说,我们发现:域相关熟悉感主要为亮度、色彩,它们可以通过固定核以一种高效方式提取。以前面图示为例,白天-黑夜变换的域相关属性主要体现在低频成分,而高频成分具有强相关性。因此,我们可以在对低分辨率的低频成分进行域相关属性变换,这将极大的降低广义I2I方法的计算复杂度。

以Figure2为例,给定 ,我们首先采用 卷积扩展通道维度;然后采用5个残差模块提取特征;其次我们将特征的通道数降到c以得到变换结果 。这个输出最终将添加到原始输入并后接Tanh激活函数。

传统的I2IT算法同样采用级联残差模块在低维空间进行变换。本文所提方法有这样几个优势:

  • 在推理耗时与内存占用方面,LP的高低频分解更为高效且无需学习;而传统的方法采用自编码方式这导致了大量的计算量,限制了其在高分辨率图像的应用。

  • 在解耦与重建效率方面,LP的频带分离更为简单有效;而基于学习的自编码方式则需要在模型大小与重建性能方面进行均衡。

Refinement of High-Frequency Components

为确保调整域相关属性的同时具有忠实重建结果,高频成分 同样应当参照 的变换进行自适应调整。

在这里,我们为 学习一个掩码并渐进式对其上采样并提炼以适配其他高频成分。按照前面的分析,,我们首先对 采用双线性插值上采样以匹配 的分辨率;然后对三者进行拼接并送入tiny网络。该网络的输出通道数设置为1.

网络的输出掩码 可以视作 的像素掩码。如Figure1所示,两个域图像的高频成分差异非常小。因此,该掩码可以解释为全局调整且更易于优化。因此,我们通过如下方式提炼

我们通过渐进式方式上采样 得到掩码集合 。因此,我们可以采用类似方式对不同的高频成分进行提炼并得到 。最后采用变换后的 与提炼结果 重建得到

Learning criteria

所提LPTN采用无监督方式进行训练,其优化的损失函数包含重建损失 以及对抗损失 。重建损失采用了常规L2损失,对抗损失则基于LS-GAN与多尺度判别器进行设置。总体损失定义如下:

Experiments

为扩展I2IT任务到高分辨率场景,我们从Flickr网络收集了两个非成对数据集,器分辨率从1080p变化到4K范围。一个为白天-黑夜变换,一个为夏天-冬天变换。

此外,为定量评估所提方法,我们在MIT-Adobe-FiveK数据集上进行实验对比。参考现有方案,我们采用expertC作为目标。

训练超参方面,我们采用Adam优化器,学习率为0.0001,损失的加权比例为

上图对比了不同模块的有效性分析,可以看到:

  • 高频成分的监禁提炼对于纹理细节的保持非常有效,移除后影响极大,不仅视觉效果变差,指标也下降甚多;

  • 低频成分进行变换时IN层很有必要,移除后会造成过度锐化的结果。

  • 总而言之,所提LPTN可以取得自然而逼真的变换结果。

上表对比了LP分解级数的影响对比,可以看到:

  • L=3时的LP分解取得了最佳性能;

  • 在推理耗时与性能方面的均衡可以通过LP的分解级数进行确定,而事实上,LPTN对于分解级数L非常鲁棒。以1080p图像为例,分解级数从3调整到5仅仅导致PSNR轻微下降(比如22.09下降到21.95),但推理速度可以加速2倍,内存占用减少为1/6.

visual

上图对比了不同方案的视觉效果对比,可以看到:所提LPTN具有更佳的视觉效果。比如,对于a图,LPTN具有更少的纹理畸变。

全文到此结束,更多消融实验与分析建议各位同学查看原文。

题外语

事实上,拉普拉斯金字塔在low-level中的应用并非本文首次所提出。张磊团队(本文作者团队)在ICCV2019年的RealSR一文中首次将拉普拉斯金字塔用于图像超分,其LPKPN结构如下图所示。

尽管LPTN与LPKPN都采用了拉普拉斯金字塔,两者有这样几点区别:

  • 应用领域方面,LPTN属于风格迁移范畴,而LPKPN则属于图像超分范畴;

  • 在思想方面,LPTN中的采用卷积进行高低频特征进行变换、提炼;而LPKPN则是对高低频特征进行增强;

  • 在结构方面,LPTN的计算量更多聚焦于低分辨率部分,同时引入了掩码思想;而LPKPN则聚焦于高分辨率特征部分,且没有掩码思想。

  • 在op方面,LPTN采用了IN层;而LPKPM采用动态滤波器思想;

  • 在计算效率方面,LPTN可能处理高分辨率图像且推理速度非常快,而LPKPN受限于结构无法处理高分辨率图像。

论文PDF和代码下载

后台回复:LPTN,即可下载上述论文和代码

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

重磅!Transformer交流群成立

扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请给CVer点赞和在看

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CVPR2021计算机视觉和模式识别领域的一个重要国际会议,轻量化网络是其中一个重要的研究方向。随着移动设备的普及和计算能力的提升,人们对于在资源有限的设备上进行高效率的计算的需求越来越大。因此,轻量化网络的研究成为了当前的热点之一。 CVPR2021上展示了许多针对轻量化网络的研究成果。这些研究工作主要围绕如何在计算资源有限的条件下减小模型的计算量和参数量。具体而言,主要包括以下几个方面的内容: 首先,研究者们提出了一些新的网络结构设计方法,以减小模型的计算量。这些方法通过剪枝、裁剪、分组卷积等方式对模型进行优化,减小模型的计算复杂度,同时保持模型的性能。 其次,研究者们还提出了一些模型压缩和加速的方法,以减小模型的参数量。这些方法包括量化、蒸馏、低秩分解等技术,通过对模型参数进行优化,从而减小模型的存储需求和计算复杂度。 此外,研究者们还针对特定任务提出了一些轻量化网络的解决方案。例如,在目标检测和图像分割等任务上,他们设计了一些轻量化的网络结构,以提供高效率的计算和准确的结果。 总的来说,CVPR2021上的轻量化网络研究集中在如何降低计算和存储开销的问题上。这些研究成果有力地推动了计算机视觉和模式识别领域在移动设备和边缘计算等资源有限环境中的应用和发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值