CNN网络结构中的重要概念
感受野
分布式表示
在深度学习中,深度卷积神经网络呈现“分布式表示”的特性。神经网络中的“分布式表示”指“语义概念”到神经元是一个多对多映射。即每个语义概念由许多分布在不同神经元中被激活的模式表示;而每个神经元又可以参与到许多不同语义概念的表示中去。
深度特征的层次性
浅层卷积核学到的是基本模式,例如:边缘、方向、纹理的特征表示;
较深层卷积可以学习到一些高层语义模式,例如:文字,人脸等;
分享一篇介绍的很好的博客传送门
残差网络模型
神经网络的深度和宽度是表征网络复杂度的两个核心因素,不过深度相比宽度在增加网络的复杂性方面更加有效。但是,随着深度的增加,训练会变得更加困难,这主要是因为在基于随机梯度下降的网络训练过程中,误差信号的多层反向传播非常容易引起梯度“弥散”(梯度过小会使回传的训练误差非常小)或者“爆炸”(梯度过大会使模型训练出现“NAN”)。使用一些特殊的权重初始化策略或者劈规范化策略可以改善该问题,但是实际情形还是不容乐观。
当深度网络收敛时,另外的问题又出现了:随着继续增加网络的深度,训练数据的训练误差没有降低反而升高。
残差网络可以很好地解决网络深度带来的训练困难,它的网络性能远超传统网络模型
高速公路网络
高速公路网络是残差网络的一个代表模型。
深度残差网络
在高速公路网络中的携带门和变换们都是恒等映射时,则:
y
=
F
(
x
,
w
)
+
x
\boldsymbol{y}=\mathbb{F}(\boldsymbol{x},\boldsymbol{w})+\boldsymbol{x}
y=F(x,w)+x
即:
F
(
x
,
w
)
=
y
−
x
\mathbb{F}(\boldsymbol{x},\boldsymbol{w})=\boldsymbol{y}-\boldsymbol{x}
F(x,w)=y−x
即网络学习的函数
F
\mathbb{F}
F是残差项
y
−
x
\boldsymbol{y}-\boldsymbol{x}
y−x,称为“残差函数”。
残差学习模型有两个分支,其一是左侧的残差函数,其二是右侧的对输入的恒等映射。这两个分支经过一个简单整合(对应元素相加)后,再经过一个非线性的变换ReLU激活函数,从而形成整个残差学习模块。由多个残差模块堆叠形成的网络结构称作“残差网络”。