本篇paper提出一种 前向encoder+ 反向decoder+ab概率分布预测的网络结构,首先预测出ab通道的概率分布,之后转成ab色道具体值,此外本文的思路可概括为3点:设计损失函数 +加权平滑像素损失 + 概率分布转点估计。
[1]设计损失函数时,首先将ab通道的输出空间以10为步长量化为Q=313类(两个色道ab轴的值一起预测的),计算损失时将标签色值也转换到313厚度的概率空间上,在倒数第二层进行训练,使用多分类交叉熵作为损失函数来对概率分布网络进行优化(64*64图上每个色素分布都可以知道,但是为什么可以直接从64*64变成224*224?不知)。
[2]由于云朵、路面、沙漠等经常大面积地作为背景出现在图片中,自然图像中ab色道的取值倾向于较小的方向。下图是从130万的数据集中统计的ab取值分布,可以发现自然图片中取值都集中在不饱和区域,如果不考虑这个问题,那损失函数将会被不饱和的值主导。
因此本文使用一种加权平滑像素损失的方式,在训练的时候为每个像素的loss重新调整权重,这个权重的大小是基于像素颜色的稀有度来设置的,通过统计ImageNet训练集的色彩概