Network In Network学习记录

本文介绍了Network In Network (NIN)模型,它通过替换传统卷积层的线性滤波器为微型MLP网络,提升对局部区域的抽象能力,并使用全局平均池化代替全连接层,以增强模型泛化及解释性。NIN通过非线性mlpconv层捕捉复杂概念,GAP确保了特征与类别的强对应,减少过拟合风险。
摘要由CSDN通过智能技术生成

论文地址:

Network In Network

亮点:

  1. 提出了一种新型的深度网络结构,可以增强模型在感受野(receptive field)对局部区域(local patches)的辨别能力;
  2. 全局均值池化层(GAP)代替fc层。

NIN(Network In Network):

传统的卷积层使用线性滤波器来扫描输入,后面接一个非线性激活函数,得到的输出称作特征图(feature map);因为卷积就是使用卷积核filter与输入平面上的一个个感受野进行向量内积操作。这个卷积是一个广义线性模型(GLM),它的抽象能力较低。这里的抽象较低是指该特征对同一概念的变体是不变的。用更有效的非线性函数逼近器代替GLM可以增强局部模型的抽象能力,所谓抽象能力高,是指当输入有局部变化时,输出特征保持不变。

以分类概念(categorical concepts)为例,模型抽象能力高时,某分类下的目标即使具有多种多样的表现形式,也被被检测出其所属分类。假设潜在概念(latent concepts)的样本线性可分,即,同一concept的所有变体均居于某个分离面的同一侧(比如SVM),此时线性模型可以达到很好的抽象程度。

传统的CNN就默认了这个假设——认为隐含概念(latent concept)是线性可分的,虽然卷积层后面接了一个激活函数,但是其抽象能力不足。然而,同一概念的数据通常是非线性流形的,流形可以简单想成是很多曲面片的叠加,比如一个圆,一个球面等,捕捉这些概念的表达通常都是输入的高维非线性函数。在NIN中,GLM用“微型网络(micro network)”结构替代,该结构是一个非线性函数逼近器。

使用多层感知机(MLP)作为微型网络,这个结构称为mlpconv,其中MLP由多个带有非线性激活函数的全连接层组成。该感知器是一个通用函数逼近器,也是一个通过反向传播训练的神经网络。

(a)为传统的conv层,其filters将local receptive field映射到一个向量(其实就是一次矩阵与向量相乘操作),而(b)mlpconv也是MLP将local receptive field映射到到一个向量。线性卷积层和mlpconv层都从局部感受野(receptive field)映射到了输出特征向量。mlpconv 层将局部块的输入通过一个由全连接层和非线性激活函数组成的多层感知器(MLP)映射到了输出的特征向量。MLP在所有局部感受野中共享。特征图通过用像CNN一样的方式在输入上滑动MLP得到,NIN的总体结构是一系列mplconv层的堆叠。被称作“Network In Network”(NIN)。

传统的图像分类任务的CNN网络最后会使用一些全连接层(fc),这里作者直接将最后一个mlpconv层的feature map的空间均值通过全局均值池化层(GAP)得到分类的置信度值,然后再使用softmax分类。因为传统的CNN网络中,目标损失函数的梯度在反向传播时,先通过fc层再到达conv层,然而fc层是一个黑盒,没有很好的理论解释。相反,GAP则更有意义并可解释的,因为GAP强化了feature map与类别之间的对应关系,正是因为采用了”micro network“这个更强的local model,使得上述对应关系成为可能,并且fc层容易overfit,所以fc层往往依赖于dropout正则化,丢弃一些unit,使得网络简单一些,避免overfit。GAP本身就是一个结构化的正则化器,自然能避免overfit。

原理:

CNN:线性卷积对线性可分的潜在概念是具有足够的抽象能力的,而且同一潜在概念的不同变体也可以使用大量的filters来分别捕获特征,以增强模型的抽象能力,然而过于完备的filters会增加下一layer的负担,因为需要考虑来自上一layer的不同变化的组合。CNN网络中,layer越高,其filter映射到初始输入平面的RF越大(称越远离初始输入平面的layer越高),高layer产生的concept级别也高,高级别的concept是由来自低layer的低级别concept组合而来,所以在将低级别的concept组合到高级别的concept之前,提高layer在local RF上的抽象能力会大有裨益(降低下一layer的负担)。

MLP:对潜在概念如果没有先验知识,那么最好是使用一个通用函数逼近器来对局部块(local patch)抽取特征,这样才能得到更抽象的表征。RBF(Radial Basis Function) 和MLP是两种很好的通用函数逼近器。这里使用MLP,基于两点考虑:1. MLP与conv兼容;2. MLP本身是一个深度模型,与特征再使用的思想是一致的。

GAP:在最后一个mlpconv层之后,为分类中每个类别生成一个feature map,然后对每个feature map进行全局平均。GAP的优点是加强了feature map与类别之间的对应关系,所以也可以将feature map解释为类别置信度map;pooling 层没有参数需要优化,一定程度上避免了过拟合;GAP是全局的,能够容忍输入的空间平移转换,即平移不变性,这增强了鲁棒性。

网络结构:

NIN的整体结构是一系列mlpconv层的堆叠,最上层接一个GAP层和分类层。mlpconv层间的子层可以被相加,图示这个NIN展示了3个mlpconv,mlpconv内部是一个三层感知机,然后是一个GAP,最后是一个目标损失层。在mlpconv之间可以增加下采样层(pooling层)。对于不同的任务,NIN中的mlpconv数量以及mlpconv中MLP层数都可以调整。

参考:

Network In Network 

[翻译]Network In Network

仅为学习记录,侵删! 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖虎记录学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值