1
前言
该论文出自于加州大学圣地亚哥分校并收录于CVPR2021,主要是对图像风格迁移的研究。传统的方法是由预先训练的 网络提取的特征之间的相关性从而捕捉图像的视觉风格,但这种风格化质量并不稳定,当应用于来自更高级和轻量级网络(如 )的特征时,这种风格化质量会显著降低。
通过对不同的网络体系结构进行实验,作者发现 的残差块并不适用于风格迁移。为了提高ResNet架构的鲁棒性,作者提出了一个简单而有效的解决方案,该方案基于特征激活的 变换。这种小技巧可以大大提高风格化结果的质量。
论文:https://arxiv.org/abs/2104.05623
2
图像风格化鲁棒性
2.1 预备知识
考虑一个彩色图像 ,其中 和 分别表示图像的宽和长。卷积神经网络将 映射成一组特征映射
表示从图像到 层激活张量的映射,其中 个通道具有空间尺寸为 。激活张量 的形状还可以被重新整理为 ,其中 。图像风格通常被表示为 矩阵的集合 ,其中 为激活第 层通道之间的相关性,具体的计算公式为
其中其中 是各层对总损失贡献的加权因子。
2.2 残差块降低风格化质量
作者给出了和预训练模型和用随机权重初始化的网络的结果,其中前缀 和 分别用于指示模型是在ImageNet上是随机初始化还是预训练。下图 到 展示了 、 、 和 图像风格化的两个例子,可以发现其性能随着网络体系结构的不同而显著变化。
与 相比, 产生更模糊的风格化图像。这种差异对于随机模型来说更加明显,因为 根本无法将内容图像风格化。从 网络结构开始,作者通过移除所有残差块连接来构建一个“无残差块网络”。从图 中可以看出非常明显提高了风格迁移的性能。
与 相比, 与 的性能更接近。下图 所示,删除残差块的修改使风格化性能更接近 。很明显,大部分风格化性能的增益主要是由于删除了残差块。作者在伪 网络中重新引入了残差块,以创建一个伪的 。
下图 显示了 再次产生了不可复制的风格。可以证明 的风格化性能下降主要是因为残差块。
2.3 残差连接降低性能的分析
为了理解残差块连接对于图像风格化的效果为什么是不好的。作者从可视化网络激活以及 矩阵的统计为切入点进行分析,下图分别显示了最大值 , , 激活值的归一化熵和 矩阵的归一化熵,其相应公式如下所示,并且下图显示了激活值和 矩阵值具有相似的现象。
在这两种情况下,对于具有残差块的体系结构( 和 ),最大值随着层深度而增加,熵逐渐减小。 残差块的引入使得激活最大值变大和激活熵接近于0。
以上图像风格迁移性性能不佳原因作者总结为两种:
第一种解释是源于 距离的敏感性。由于这种敏感性使得 矩阵在通道维度上高度相关的激活值显得更为突出,优化过度集中在少数样式的模式上,而忽略了其余的大部分。
第二种解释是关于神经网络的知识蒸馏。对于分类问题,神经网络通常被训练成最小化后验分布 和目标分布 之间的交叉熵损失,使用预先训练的较大网络的软概率输出作为目标 可以提高训练速度,并有较好的收敛性。
这是因为高熵的分布在训练过程中产生的梯度方差要小得多。同样的原理图像风格化迁移是最小化 和 的 矩阵之间的距离。在蒸馏的观点下,更高的熵学习起来相对更容易。
2.4 打地鼠效应
作者从 网络结构出发进行剖析,如下图所示为三种 的网络结构,第 层的输出可以表示为:
其中 表示为一系列的卷积, 运算,经激活函数 之后则有
这种网络结构的设计选择有助于更深层的更大激活值的存在。一旦中间层出现大的激活值,网络可能会被迫进入“打地鼠”游戏,为后续层产生更大的振幅。为了研究这个“打地鼠”假设,作者通过网络跟踪了激活的演变。对于随机选择的样式图像,随机采样图像位置,并使用最近邻插值跟踪网络层上相应的激活值。下图显示了10个激活轨迹的典型随机样本。“打地鼠”效应甚至在这个有限的范围内也是可见的。
2.5 激活函数的平滑改进(SWAG)
作者提出了一个非常简单的解决方案,灵感来自于将图像风格化解释为为知识蒸馏,作者通过使用基于 的平滑变换来平滑所有激活,从而避免低熵的峰值激活,具体公式如下所示:
其中内容损失和风格损失函数表示为: 转换减少了大峰值并增加了小的激活值,从而创建了更均匀的分布。3
实验评估
3.1定性评估
作者在两个非 网络结构中评估了SWAG的想果,将 , , 和 等网络结构表示为 , , 和 .。下图显示了四种不同图像的风格迁移结果,标准模型和 模型的性能的比较。 和 传输更高级的样式功能,如笔画和纹理。这些结果表明, 通常有利于图像风格化算法的。
3.2 定量估计
图像风格化质量很难定量评估,因为它是主观的。在该论文中,作者采用用户选择作为定量评估的标准,即人类从一组候选图像中选择一个首选图像。实验结果如下表所示,可以发现无论是预先训练的还是随机的网络,有 模型总是比没有 的模型获得更多的风格化效果,并且所有采用 的模型都显著优于标准 网络结构。
备注:GAN
GAN
生成对抗网络、GAN等技术,
若已为CV君其他账号好友请直接私信。
在看,让更多人看到