本篇paper的思路总体理解可归纳为:整体局部联合+双任务组合优化+支持任意输入尺寸+低端网络权值共享,使用了4个网络结构,分别预测图片所属的类别 和利用L通道预测ab通道值,网络从左到右经历过程为:
[1]将原始L通道图分别经过尺寸缩减到112*112、缩半处理后传到上下权值共享的 低级特征网络进行特征提取,通过6层的CNN得到低阶特征信息。
[2]在下面部分,将低阶特征信息传到全局特征网络 提取特征信息,经过卷积和全连接得到长度为256维的向量传到上层进行合并。 同时为了使得模型有更好的上下文理解能力,我们使用图片的 类别信息来协同模型的训练,将倒数第二全连接层传达分类网络,使用MSE损失进行网络训练。
[3]在上面部分将低阶特征的输出经过中阶特征网络,通过网络提取局部信息,获得H/8 * W/8的特征图输出,之后将局部信息和有较好上下文感知的全局信息进行合并,文中设计一个可训练的融合层对局部、全局特征进行融合。
[4]最后经过多次卷积和上采样最后sigmoid激活得到 ab通道的预测值(标准化至0-1),之后与L通道进行合并,获得最后的预测图,整个网络使用MSE损失进行训练,并因为上部分是全卷积和池化的结构,使得可以对任意尺寸的图像进行上色。