一、论文
1. Inpainting Task
图像复原研究包含两个大的方向。一是图像补全(Image Inpainting),即填充图像上由于某些原因造成的部分缺失或者remove 掉图像上的覆盖物;二是图像超分辨率(Super Resolution),即将模糊的图像变得更加清楚,更直观地理解就是增加图像的分辨率,这两种方向都可以用一个词来简单地概括:无中生有。
Image Inpainting 这个课题由来已久,传统的解决方案大多数使用数学方法利用图像待填补部分周围环境的信息推导出一堆复杂的公式,然后按照公式对图像进行迭代更新,慢慢达到一个相对较优的结果。但同时,这种解决方案只能相对简单的情况,比如像下面这幅图片。
一些待填充区域较大,难度较高的任务使用传统的算法就很难取得比较好的效果。比如像下面这幅图像,图像中心存在一块很大的空白,这个区域如果让人来填充的话,大概会给出右边的结果。但是如果让电脑来做,要怎么去做,怎么给出一个还算合理的填充内容呢?
近年来随着深度学习的繁荣发展,很多研究者将神经网络应用到Image Inpainting 的领域,并取得了很不错的效果,这篇文章要讲到的Context Encoder 就是其中之一,虽然神经网络工作的原因至今没有人摸得清。
2. Encode-Decoder Pipeline
文章提出的一个主要的算法可以描述为Encode-Decoder Pipeline,将缺失的图像作为输入,走完这个pipeline 之后输出的就是缺失部分的预测内容。
(1)Encoder 是一个全卷积网络,它将输入图像从227 * 227 映射到6 * 6 * 256(9216),文章中使用的是AlexNet pool5 以前的网络层。
(2)Decoder 是一个去卷积网络,它将9216 维的向量映射为缺失内容的预测值。
(3)Channel-wise fully-connected layer 用来降低参数的数量。即中间9216 与9216 不是使用的全连接方式,而是使用的channel-wise 全连接,这个操作可以使参数数量从 降到
.
Context encoder trained with reconstruction loss for feature learning by filling in arbitrary region dropouts in the input.
3. Loss Function
(1)Reconstructi