CVPR2021 最佳论文候选—提高图像风格迁移的鲁棒性

1

前言

该论文出自于加州大学圣地亚哥分校并收录于CVPR2021,主要是对图像风格迁移的研究。传统的方法是由预先训练的 网络提取的特征之间的相关性从而捕捉图像的视觉风格,但这种风格化质量并不稳定,当应用于来自更高级和轻量级网络(如 )的特征时,这种风格化质量会显著降低。

通过对不同的网络体系结构进行实验,作者发现 的残差块并不适用于风格迁移。为了提高ResNet架构的鲁棒性,作者提出了一个简单而有效的解决方案,该方案基于特征激活的 变换。这种小技巧可以大大提高风格化结果的质量。

论文:https://arxiv.org/abs/2104.05623

2

图像风格化鲁棒性

2.1 预备知识

考虑一个彩色图像 ,其中 分别表示图像的宽和长。卷积神经网络将 映射成一组特征映射

表示从图像到 层激活张量的映射,其中 个通道具有空间尺寸为 。激活张量 的形状还可以被重新整理为 ,其中 。图像风格通常被表示为 矩阵的集合 ,其中 为激活第 层通道之间的相关性,具体的计算公式为

其中

其中 是各层对总损失贡献的加权因子。

2.2 残差块降低风格化质量

作者给出了和预训练模型和用随机权重初始化的网络的结果,其中前缀 分别用于指示模型是在ImageNet上是随机初始化还是预训练。下图 展示了 图像风格化的两个例子,可以发现其性能随着网络体系结构的不同而显著变化。

相比, 产生更模糊的风格化图像。这种差异对于随机模型来说更加明显,因为 根本无法将内容图像风格化。从 网络结构开始,作者通过移除所有残差块连接来构建一个“无残差块网络”。从图 中可以看出非常明显提高了风格迁移的性能。

相比, 的性能更接近。下图 所示,删除残差块的修改使风格化性能更接近 。很明显,大部分风格化性能的增益主要是由于删除了残差块。作者在伪 网络中重新引入了残差块,以创建一个伪的

下图 显示了 再次产生了不可复制的风格。可以证明 的风格化性能下降主要是因为残差块。

2.3 残差连接降低性能的分析

为了理解残差块连接对于图像风格化的效果为什么是不好的。作者从可视化网络激活以及 矩阵的统计为切入点进行分析,下图分别显示了最大值 , 激活值的归一化熵和 矩阵的归一化熵,其相应公式如下所示,并且下图显示了激活值和 矩阵值具有相似的现象。

在这两种情况下,对于具有残差块的体系结构( ),最大值随着层深度而增加,熵逐渐减小。 残差块的引入使得激活最大值变大和激活熵接近于0。

以上图像风格迁移性性能不佳原因作者总结为两种:

第一种解释是源于 距离的敏感性。由于这种敏感性使得 矩阵在通道维度上高度相关的激活值显得更为突出,优化过度集中在少数样式的模式上,而忽略了其余的大部分。

第二种解释是关于神经网络的知识蒸馏。对于分类问题,神经网络通常被训练成最小化后验分布 和目标分布 之间的交叉熵损失,使用预先训练的较大网络的软概率输出作为目标 可以提高训练速度,并有较好的收敛性。

这是因为高熵的分布在训练过程中产生的梯度方差要小得多。同样的原理图像风格化迁移是最小化 矩阵之间的距离。在蒸馏的观点下,更高的熵学习起来相对更容易。

2.4 打地鼠效应

作者从 网络结构出发进行剖析,如下图所示为三种 的网络结构,第 层的输出可以表示为:

其中 表示为一系列的卷积, 运算,经激活函数 之后则有

这种网络结构的设计选择有助于更深层的更大激活值的存在。一旦中间层出现大的激活值,网络可能会被迫进入“打地鼠”游戏,为后续层产生更大的振幅。

为了研究这个“打地鼠”假设,作者通过网络跟踪了激活的演变。对于随机选择的样式图像,随机采样图像位置,并使用最近邻插值跟踪网络层上相应的激活值。下图显示了10个激活轨迹的典型随机样本。“打地鼠”效应甚至在这个有限的范围内也是可见的。

2.5 激活函数的平滑改进(SWAG)

作者提出了一个非常简单的解决方案,灵感来自于将图像风格化解释为为知识蒸馏,作者通过使用基于 的平滑变换来平滑所有激活,从而避免低熵的峰值激活,具体公式如下所示:

其中内容损失和风格损失函数表示为: 转换减少了大峰值并增加了小的激活值,从而创建了更均匀的分布。

3

实验评估

3.1定性评估 

作者在两个非 网络结构中评估了SWAG的想果,将 等网络结构表示为 .。下图显示了四种不同图像的风格迁移结果,标准模型和 模型的性能的比较。 传输更高级的样式功能,如笔画和纹理。这些结果表明, 通常有利于图像风格化算法的。

3.2 定量估计 

图像风格化质量很难定量评估,因为它是主观的。在该论文中,作者采用用户选择作为定量评估的标准,即人类从一组候选图像中选择一个首选图像。实验结果如下表所示,可以发现无论是预先训练的还是随机的网络,有 模型总是比没有 的模型获得更多的风格化效果,并且所有采用 的模型都显著优于标准 网络结构。

备注:GAN

GAN

生成对抗网络、GAN等技术,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到  

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值