基于上下文像素预测驱动的无监督的视觉特征的学习算法,利用周围的图像信息来推断缺失的图像
所构建网络的主要思路是结合Encoder-Decoder网络结构和GAN,Encoder-Decoder阶段用于学习图像特征和生成图像待修补区域对应的预测图,GAN部分用于判断预测图来自训练集和预测集的可能性,当生成的预测图与GroundTruth在图像内容上达到一致,并且GAN的判别器无法判断预测图是否来自训练集或预测集时,就认为网络模型参数达到了最优状态。
编码器的结构采用了部分AlexNet的结构来做特征提取工作。(前五层卷积层+之后的pool层[pool5])编码器的输入图像的大小为227×227,通过上面的特征提取得到6×6×256维的特征表示。如果编码器结构仅采用卷积结构,那么信息是无法从编码器传到解码器。这是因为卷积层将所有的特征图连接在一起,而不是直接将特定特征图中的所有位置直接连接在一起,并且潜在有6×6×256维的特征向量采用直接连接的方式会导致参数爆炸。(由此提出了通道全连接层)
通道全连接层本质上是一个全连接层,输入层有m个的n×n的特征图,则该层的输出为m个尺寸的n×n的特征图。与全连接层不同的是,它没有连接不同特征图的参数,只在特征图内传播信息。最后是一个步幅为1的卷积层,来实现跨通道传播信息。
解码器:通道全连接层之后是5个激活函数为ReLU的up-convolutional layers,即一系列上采样和非线性包括编码器产生的特征的非线性加权上采样,直到我们大致达到原始目标大小。
损失函数由两部分构成,一部分是重构的损失函数,另一部分是对抗损失函数。重构损失:负责处理缺失部分的整体结构和上下文的一致性,对抗损失:负责让修复的图片看起来更加真实,让修复的图片的分布更加与真实图片一致。
论文所提出的上下文编码器训练可以在上下文的条件下生成图像。在语义修复方面达到了最先进的性能。学习到的特征表示也有助于其他任务,如分类,检测和语义分割。