自动上色论文《Learning Diverse Image Colorization》

Abstract
作者指出,着色问题是ill-posed以及模棱两可的,是典型的多模态问题。过去的着色问题往往只考虑其最有可能的着色方案;而作者希望通过这篇论文对着色问题的本质建模,并生成具有空间连贯性(long-scale spatial co-ordination)的着色结果。作者通过变分自编码器(VAE)学习色域的低维度的embedding,并设计损失函数来避免模糊的输出结果,以及考虑到像素颜色的不均匀分布。最后,作者为灰度图像和色域的低维度嵌入之间的多模态分布建立了条件模型。验证表示,此模型效果优于传统的条件变分自编码模型,以及较有名的cGAN模型。
Introduction
上色问题要求较高,因为需要考虑局部特征以及大尺度的空间特征。由于只考虑局部特征会导致生成的结果图片失去耦合性,因此需要考虑一种既考虑对每个像素的估计(per-pixel color estimates),又考虑空间连贯性的方法。这种方式对于需要多个预测的许多模糊的视觉任务是常见的,即:从静态图像[1]生成运动场,合成未来帧[2],延时视频[3],交互式分割和姿势估计[4]等。
使用per-pixel模型后会导致失去空间连贯性以及产生有斑点的噪声
一个解决方法是使用条件模型P(C|G),C是图片的色域,G是灰度图片。可以在条件模型上画一些样本点 { C k } k = 1 N \{C_k\}_{k=1}^N { Ck}k=1N从而获得多样的着色结果。然而,这种详细的条件模型设计起来很难,因为C和G在高维空间中离散分布。因此作者使用了降维的思想,使用VAE(变分自编码器),将色域C用他的低维度的嵌入结果z来表示;之后使用混合密度网络(MDN)学习多模态条件模型P(z|G)。灰度图G的特征由一个着色卷积神经网络[5]的7层卷积结果生成。这些特征将空间结构与逐像素的特征编码。最后在测试阶段,作者使用多个样本 { z k } k = 1 N   P ( z ∣ G ) \{z_k\}_{k=1}^N~P(z|G) { zk}k=1N P(zG),并使用VAE解码器获得对应的着色结果 C k C_k Ck本文通过对色域的空间结构进行编码,并通过在条件模型上采样获得空间相关的多样化着色。
在这里插入图片描述
贡献如下:
1、作者通过学习平滑的低维嵌入(Embedding)以生成具有高保真度的相应色域。
2、通过在灰度图特征和低维嵌入之间学习多模态条件模型,从而生成多样性的着色。
3、本方法在着色问题上可超过CVAE和cGAN。
对色域的编码与解码
本文通过VAE(变分自编码器)来进行色域嵌入:除此之外,本文也使用了一种有效的解码器从而从给定的Embedding中生成真实化的色域。本文不使用常见的L2误差,因为它会带来过度平滑或褪色的色域。
解码器损失
特异性
top-k主成分 P k P_k Pk是在色域的高度差异空间中具有最大方差的投影的方向。因此,产生主要沿着top-k主成分变化的色域,以生成的色域中的特异性为代价来减少L2损失。为了避免这一点,本文沿着top-k主成分投影生成的色域 f ( z , θ ) f(z,\theta) f(z,θ)和Ground Truth色域C。本文使用k = 20。接下来,作者将沿着每个主成分的这些投影之间的差除以从训练集中估计的相应标准偏差 σ k \sigma_k σk。这鼓励所有主要组成部分的变化在本文的损失中处于平等地位。将残差除以第k个(对于本文的情况为第20个)组分的标​​准偏差。使用这些距离和残差的平方和可以写出特异性损失 L m a h \mathcal{L}_{mah} Lmah
L m a h = ∑ k = 1 20 ∣ ∣ [ C − f ( z , θ ) T P k ∣ ∣ 2 2 σ k 2 + ∣ ∣ C r e s − f r e s ( z , θ ) ∣ ∣ 2 2 σ 20 2 \mathcal{L}_{mah} = \sum_{k=1}^{20}\frac{||[C-f(z,\theta)^TP_k||_2^2}{\sigma_k^2}+\frac{||C_{res} - f_{res}(z,\theta)||_2^2}{\sigma_{20}^2} Lmah=k=120σk2[Cf(z,θ)TPk22+<

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值