第1层:我们3通道的图片+5通道的label作为输入,卷积核设置为64个,卷积核为7*7,滑动步长为1,填充为3;我们使用IN归一化(Instance Norm比Batch Norm的效果要更好),加速了训练,提升了训练的稳定性。;用Relu作激励函数。
第2-3层:下采样2个卷积层;stride=2,使用步长卷积代替池化,卷积在提取图像特征上具有很好的作用。
我们希望复杂特征的数量越多越好,越多我们对图片了解越多;feature map的长与宽要越来越小,因为我们希望每个特征都是精炼简洁的,去除不必要的噪音;每个特征,都是前一层feature map 上的多个特征融合而成,本身的信息量充足,无需在长和宽上增加信息量。
第4-15层:使用六个残差单元作等维输出。防止层数越深,模型反而退化。每个残差单元有两层,用Relu作激活(能够将负数激活为0,过滤了负数的线性变化,也能够更快的使得F(x)=0)。
第16-17层:上采样,使用转置卷积放大4倍。
第18层:通过一层尺寸不变的卷积,规范化到(-1,1)之间,最后一层的激活函数使用tanh,得到输出维度为3
网络架构(残差块里有两层卷积)