Deep Inception Generative Network for Cognitive Image Inpainting(认知图像修复的深度初始生成网络2018)论文笔记

一、摘要

深度学习的最新进展在填充大的孔洞方面显示出令人兴奋的前景,并为图像修复带来了另一个方向。然而,现有的基于学习的方法往往由于认知理解不足而产生伪影和谬误纹理。以往的生成网络受限于单一的接收类型,并且在考虑细节清晰度时放弃了池化。无论目标属性如何,人类的认知都是不变的。由于感受野提高了抽象图像表征的能力,池化可以保持特征不变性,采用深度初始学习来促进高级特征表示,增强模型对局部补丁的学习能力。此外,还介绍了生成不同掩码图像的方法,并创建了随机掩码数据集。

二、介绍

图像修复面临两个主流问题

①由于认知理解不足以及CNN在模拟上下文信息与孔洞区域之间的长期相关性方面的有效性不足,这些方法往往会产生边界伪影、扭曲的结构和周围区域不一致的模糊纹理。传统CNN使用的滤波器是广义线性模型(GLM),因此它隐含的假设特征是线性可分的提取,但实际情况往往是难以线性可分的。

②大多数生成网络放弃池化,并受到3*3卷积核的限制。这显然是不可能充分利用其学习能力和认知理解,因为只使用单一类型的感受野。

深度初始学习利用更复杂的结构来抽象不同感受野内的数据,探索足够的认知理解,在一层内构建微神经网络,利用初始层的非线性能力,将多个神经网络叠加在一起,可以有效的提取高阶特征。

贡献

①提出了一种基于初始模块的生成网络结构,增强了特征的抽象能力,构建的网络显著提高了修复的效果。本文是第一个采用初始学习的图像修复。

②提供了生成各种掩码的方法,并创建了相关的掩码数据集。

三、相关的工作

图像修复的两种主流

①基于样本的修复

基于匹配的方法明确地将未知区域的补丁与已知区域的补丁进行匹配,并复制已知的内容来补全未知区域,明显的限制是合成的纹理只来自于输入图像。基于扩散的方法也是如此,它要求解偏微分方程(PDE),并将颜色传播到已知区域。

②基于学习的修复

深度神经网络被引入到纹理合成和图像风格化中。CE结合L2损失和对抗损失直接预测看似合理的图像结构,这是使用CNN进行图像修复的经典作品。GL采用空洞卷积来增加修复网络中输出神经元的感受野,取代CE中的通道全连接层,引入了基于GAN框架的全局和局部判别器作为对抗损失,并采用泊松混合作为后处理。

生成掩码的主流方法

在图像的随机位置生成一个随机大小的破碎区域。

网络中的网络(NIN)

传统CNN使用的滤波器是广义线性模型。一种解决方案是叠加卷积滤波器来生成更高级的特征表示来处理实际问题,而更深层的模型可以提高抽象能力。网络越深,非线性越强。提高网络性能最直接的方法是增加网络的深度和宽度。但这种方法存在以下问题:①引入的参数太多,如果训练数据集有限,容易产生过拟合②网络越大,计算复杂度越大③深度网络容易导致梯度扩散,模型难以优化。NIN实例化了一个微神经网络,它是卷积层内的一个有效函数逼近。

Inception

inception的主要思想是卷积神经网络中优化的局部稀疏结构可以被一系列现成的密集子结构所近似和覆盖。

Inception保持了网络的稀疏性,同时利用了密集矩阵的高计算性能。它有助于网络在不显著增加计算量的情况下变得更深入、更广泛。

在相同的计算量下,能够提取更多的特征,大大提高了性能。结合残差块网络(ResNet)的设计有助于降低训练非常深度网络的难度。

四、方法

深度初始学习

Inception是一个层内的微网络,在相同的感受野中,NIN结构可以利用比普通卷积更强的非线性。在一个初始单元中有几种不同类型的内核。通常包括小型滤波器、中型滤波器、大型滤波器和池化滤波器。它增加了网络的宽度。另一方面,也增加了网络对多尺度处理的适应性。卷积层中的网络能够从输入的每个细节中提取信息,大的滤波器也可以覆盖感受野的更大区域。池化是为了减少空间的大小和过度拟合。Inception的拓扑分析上层的相关统计数据,并将它们聚合到一个高度相关的单元组中。所有的结果被拼接成一个非常深的特征图,拼接意味着不同特征的融合。

一、摘要

深度学习的最新进展在填充大的孔洞方面显示出令人兴奋的前景,并为图像修复带来了另一个方向。然而,现有的基于学习的方法往往由于认知理解不足而产生伪影和谬误纹理。以往的生成网络受限于单一的接收类型,并且在考虑细节清晰度时放弃了池化。无论目标属性如何,人类的认知都是不变的。由于感受野提高了抽象图像表征的能力,池化可以保持特征不变性,采用深度初始学习来促进高级特征表示,增强模型对局部补丁的学习能力。此外,还介绍了生成不同掩码图像的方法,并创建了随机掩码数据集。

二、介绍

图像修复面临两个主流问题

①由于认知理解不足以及CNN在模拟上下文信息与孔洞区域之间的长期相关性方面的有效性不足,这些方法往往会产生边界伪影、扭曲的结构和周围区域不一致的模糊纹理。传统CNN使用的滤波器是广义线性模型(GLM),因此它隐含的假设特征是线性可分的提取,但实际情况往往是难以线性可分的。

②大多数生成网络放弃池化,并受到3*3卷积核的限制。这显然是不可能充分利用其学习能力和认知理解,因为只使用单一类型的感受野。

深度初始学习利用更复杂的结构来抽象不同感受野内的数据,探索足够的认知理解,在一层内构建微神经网络,利用初始层的非线性能力,将多个神经网络叠加在一起,可以有效的提取高阶特征。

贡献

①提出了一种基于初始模块的生成网络结构,增强了特征的抽象能力,构建的网络显著提高了修复的效果。本文是第一个采用初始学习的图像修复。

②提供了生成各种掩码的方法,并创建了相关的掩码数据集。

三、相关的工作

图像修复的两种主流

①基于样本的修复

基于匹配的方法明确地将未知区域的补丁与已知区域的补丁进行匹配,并复制已知的内容来补全未知区域,明显的限制是合成的纹理只来自于输入图像。基于扩散的方法也是如此,它要求解偏微分方程(PDE),并将颜色传播到已知区域。

②基于学习的修复

深度神经网络被引入到纹理合成和图像风格化中。CE结合L2损失和对抗损失直接预测看似合理的图像结构,这是使用CNN进行图像修复的经典作品。GL采用空洞卷积来增加修复网络中输出神经元的感受野,取代CE中的通道全连接层,引入了基于GAN框架的全局和局部判别器作为对抗损失,并采用泊松混合作为后处理。

生成掩码的主流方法

在图像的随机位置生成一个随机大小的破碎区域。

网络中的网络(NIN)

传统CNN使用的滤波器是广义线性模型。一种解决方案是叠加卷积滤波器来生成更高级的特征表示来处理实际问题,而更深层的模型可以提高抽象能力。网络越深,非线性越强。提高网络性能最直接的方法是增加网络的深度和宽度。但这种方法存在以下问题:①引入的参数太多,如果训练数据集有限,容易产生过拟合②网络越大,计算复杂度越大③深度网络容易导致梯度扩散,模型难以优化。NIN实例化了一个微神经网络,它是卷积层内的一个有效函数逼近。

Inception

inception的主要思想是卷积神经网络中优化的局部稀疏结构可以被一系列现成的密集子结构所近似和覆盖。

Inception保持了网络的稀疏性,同时利用了密集矩阵的高计算性能。它有助于网络在不显著增加计算量的情况下变得更深入、更广泛。

在相同的计算量下,能够提取更多的特征,大大提高了性能。结合残差块网络(ResNet)的设计有助于降低训练非常深度网络的难度。

四、方法

深度初始学习

Inception是一个层内的微网络,在相同的感受野中,NIN结构可以利用比普通卷积更强的非线性。在一个初始单元中有几种不同类型的内核。通常包括小型滤波器、中型滤波器、大型滤波器和池化滤波器。它增加了网络的宽度。另一方面,也增加了网络对多尺度处理的适应性。卷积层中的网络能够从输入的每个细节中提取信息,大的滤波器也可以覆盖感受野的更大区域。池化是为了减少空间的大小和过度拟合。Inception的拓扑分析上层的相关统计数据,并将它们聚合到一个高度相关的单元组中。所有的结果被拼接成一个非常深的特征图,拼接意味着不同特征的融合。

一、摘要

深度学习的最新进展在填充大的孔洞方面显示出令人兴奋的前景,并为图像修复带来了另一个方向。然而,现有的基于学习的方法往往由于认知理解不足而产生伪影和谬误纹理。以往的生成网络受限于单一的接收类型,并且在考虑细节清晰度时放弃了池化。无论目标属性如何,人类的认知都是不变的。由于感受野提高了抽象图像表征的能力,池化可以保持特征不变性,采用深度初始学习来促进高级特征表示,增强模型对局部补丁的学习能力。此外,还介绍了生成不同掩码图像的方法,并创建了随机掩码数据集。

二、介绍

图像修复面临两个主流问题

①由于认知理解不足以及CNN在模拟上下文信息与孔洞区域之间的长期相关性方面的有效性不足,这些方法往往会产生边界伪影、扭曲的结构和周围区域不一致的模糊纹理。传统CNN使用的滤波器是广义线性模型(GLM),因此它隐含的假设特征是线性可分的提取,但实际情况往往是难以线性可分的。

②大多数生成网络放弃池化,并受到3*3卷积核的限制。这显然是不可能充分利用其学习能力和认知理解,因为只使用单一类型的感受野。

深度初始学习利用更复杂的结构来抽象不同感受野内的数据,探索足够的认知理解,在一层内构建微神经网络,利用初始层的非线性能力,将多个神经网络叠加在一起,可以有效的提取高阶特征。

贡献

①提出了一种基于初始模块的生成网络结构,增强了特征的抽象能力,构建的网络显著提高了修复的效果。本文是第一个采用初始学习的图像修复。

②提供了生成各种掩码的方法,并创建了相关的掩码数据集。

三、相关的工作

图像修复的两种主流

①基于样本的修复

基于匹配的方法明确地将未知区域的补丁与已知区域的补丁进行匹配,并复制已知的内容来补全未知区域,明显的限制是合成的纹理只来自于输入图像。基于扩散的方法也是如此,它要求解偏微分方程(PDE),并将颜色传播到已知区域。

②基于学习的修复

深度神经网络被引入到纹理合成和图像风格化中。CE结合L2损失和对抗损失直接预测看似合理的图像结构,这是使用CNN进行图像修复的经典作品。GL采用空洞卷积来增加修复网络中输出神经元的感受野,取代CE中的通道全连接层,引入了基于GAN框架的全局和局部判别器作为对抗损失,并采用泊松混合作为后处理。

生成掩码的主流方法

在图像的随机位置生成一个随机大小的破碎区域。

网络中的网络(NIN)

传统CNN使用的滤波器是广义线性模型。一种解决方案是叠加卷积滤波器来生成更高级的特征表示来处理实际问题,而更深层的模型可以提高抽象能力。网络越深,非线性越强。提高网络性能最直接的方法是增加网络的深度和宽度。但这种方法存在以下问题:①引入的参数太多,如果训练数据集有限,容易产生过拟合②网络越大,计算复杂度越大③深度网络容易导致梯度扩散,模型难以优化。NIN实例化了一个微神经网络,它是卷积层内的一个有效函数逼近。

Inception

inception的主要思想是卷积神经网络中优化的局部稀疏结构可以被一系列现成的密集子结构所近似和覆盖。

Inception保持了网络的稀疏性,同时利用了密集矩阵的高计算性能。它有助于网络在不显著增加计算量的情况下变得更深入、更广泛。

在相同的计算量下,能够提取更多的特征,大大提高了性能。结合残差块网络(ResNet)的设计有助于降低训练非常深度网络的难度。

四、方法

深度初始学习

Inception是一个层内的微网络,在相同的感受野中,NIN结构可以利用比普通卷积更强的非线性。在一个初始单元中有几种不同类型的内核。通常包括小型滤波器、中型滤波器、大型滤波器和池化滤波器。它增加了网络的宽度。另一方面,也增加了网络对多尺度处理的适应性。卷积层中的网络能够从输入的每个细节中提取信息,大的滤波器也可以覆盖感受野的更大区域。池化是为了减少空间的大小和过度拟合。Inception的拓扑分析上层的相关统计数据,并将它们聚合到一个高度相关的单元组中。所有的结果被拼接成一个非常深的特征图,拼接意味着不同特征的融合。

普通模型:

输入:100*100*128

卷积:5*5*256

输出:100*100*256

卷积层参数:128*5*5*256 = 819200

Inception模型:

输入:100*100*128

卷积:1*1*32 和 5*5*256

输出:100*100*256

卷积层参数:128*1*1*32 + 32*5*5*256 = 204800

此时参数缩小了近四倍,在相同的感受野中叠加更多的卷积可以提取更多的特征。

这种网络具有良好的局部拓扑结构,可以并行执行多次卷积或池化,从而促进多个特征的学习。

空洞卷积

为了满足空间支持,提出了空洞卷积,可以在使用相同数量的参数和计算能力的情况下,以更大的输入面积计算每个输出像素。通过在较低分辨率下使用空洞卷积,该模型在计算每个输出像素时可以有效地看到比标准卷积层更大的输入图像区域。采用Inception学习可以获得更大的感受野。这样不仅可以满足空间支持,还可以获得不同的图像视图,学习到不同的特征。为了避免参数展开和计算,将n× n滤波器等大型卷积核分解为n×1和1×n形式。这有助于节省参数,加快计算速度,避免过度拟合。池化层嵌入在Inception中,这不仅有助于保持有效学习特征的能力,而且避免了单独使用池化层导致的细节模糊和分辨率降低。

构建Inception

①滤波器的并行组合

②通过级联卷积,可以获得更多的非线性。(3*3的卷积 + 激活函数f1(x) ,1*1的卷积 + 激活函数f2(x),f2(f1(x))比f1(x)的非线性更强。)

网络设计

遵循编码器-解码器的典型模式。采用U-Net将编码器中学习到的特征扩展到编码器中。编码器8层+解码器8层,共16层网络。编码器:学习图像特征的阶段,是对图像进行特征化的过程。解码器:将学习到的特征恢复和解码到真实图像的过程。U-Net架构包括上采样和下采样,下采样用于逐渐揭示环境信息,上采样过程将下采样过程中学习到的包含环境信息的特征融合在一起,以恢复更多的细节。每个卷积层之后是批量归一化和激活函数,编码器采用ReLu激活函数,解码器采用LeakReLu激活函数。

损失函数

重建损失函数+感知损失+风格损失

创建一个用于自由风格修复的掩码数据集

①随机绘制矩形、圆形、椭圆、字符串等多种形状的图片。它们是随机生成的,具有随机大小、旋转和位置。②先随机选取一个点,然后对点周围的受损区域进行大面积扩展。采用膨胀形态学处理产生最终的二值掩模。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值