一、真实值、观测值、预测值
(1)真实值表示真实世界中的数据(总体),是肉眼看到的,没有任何误差的。
(2)观测值表示机器学习模型的样本数据(样本),是模型的输入,但不一定是真实世界中的数据(可以来自真实世界)。eg. 如果是图像的话,就是模型摄像头通过图像传感器的输入。
(3)预测值表示学习模型预测出的数据。
二、随机扰动项、误差和残差
(1)随机扰动项指的是数据本身的不确定性带来的误差,通常我们假设随机扰动项独立且服从均值为0,方差相同的正态分布。
(2)残差是指预测值与实际值的差,由于残差的计算要用到全部观测,因此残差之间并不是相互独立的,同时,残差的标准差也不完全相同,越是异常值的点,其对应的残差的波动性越小。
(3)误差是指观测值与真实值的差异。
三、残差连接和跳跃连接
残差连接(Residual Connections)是跳跃连接(skip-connection)的一种,缓解了在深度神经网络中增加深度带来的梯度消失问题。设输入为X,映射输出为F(x),F通常包括了卷积、激活等操作,当我们强行将一个输入添加到函数的输出的时候,其映射函数可以明确的拆分成
F
(
x
)
F(x)
F(x)和X的线性叠加,即将输出表述为输入和输入的一个非线性变换的线性叠加。
(4) 残差网络解决的两个问题
- 梯度弥散(消失)问题
假如我们有这样一个函数:
f ′ = f ( x , w f ) f\prime = f(x,w_f) f′=f(x,wf)
g ′ = g ( f ′ ) g\prime = g(f\prime) g′=g(f′)
y ′ = k ( g ′ ) y\prime = k(g\prime) y′=k(g′)
c o s t = c r i t e r i o n ( y , y ′ ) cost = criterion(y,y\prime) cost=criterion(y,y′)
其中f,g,k可以理解为卷积、激活、分类器。
c o s t cost cost对 f f f的导数为:
d ( f ′ ) d ( w f ) × d ( g ′ ) d ( f ′ ) × d ( y ′ ) d ( g ′ ) × d ( c o s t ) y ′ \frac{d(f\prime)}{d(w_f)}\times \frac{d(g\prime)}{d(f \prime)}\times \frac{d(y\prime)}{d(g \prime)}\times \frac{d(cost)}{y\prime} d(wf)d(f′)×d(f′)d(g′)×d(g′)d(y′)×y′d(cost)
这是有 隐患的,一旦其中某一个导数很小,多次连乘后梯度可能越来越小,这就是常说的梯度消散。对于深层网络,传到浅层几乎就没了,但是如果使用残差,每一个导数就加上了一个恒等项1,对于 d h d x = d ( f + x ) d x = 1 + d f d x \frac{dh}{dx}=\frac{d(f+x)}{dx}=1+\frac{df}{dx} dxdh=dxd(f+x)=1+dxdf。此时就算原来的导数 d f d x \frac{df}{dx} dxdf很小,这时候误差仍然能够有效的反向传播,这就是核心思想。 - 神经网络的退化问题
神经网络的退化才是难以训练深层网络的根本原因所在,而不是梯度消散。虽然梯度范数大,但是如果网络的可用自由度对这些范数的贡献非常不均衡,也就是每个层中只有少量的隐藏单元对不同的输入改变它们的激活值,而大部分隐藏单元对不同的输入都是相同的反应。此时整个权重矩阵的秩不高,并且随着网络层数的增加,连乘后使得真个秩变得更低。这就是 网络退化问题,虽然是一个很高维的矩阵,但是大部分维度却没有信息,表达能力看起来没有那么强大。残差连接强制打破了网络的对称性。
第1种(图a),输入权重矩阵(灰色部分)完全退化为0,则输出W已经失去鉴别能力,此时加上残差连接(蓝色部分),网络又恢复了表达能力。第2种(图b),输入对称的权重矩阵,那输出W一样不具备这两部分的鉴别能力,添加残差连接(蓝色部分)可打破对称性。第3种(图c)是图b的变种,不再说明。
四、卷积和反卷积
(1)卷积:在cv中可以用来提取图片中的特征,低层卷积层可以用来提取到图片的一些边缘、线条、角等特征,高层卷积能够从低层卷积层中学到更复杂的特征,从而实现到图片的分类和识别。
(2)反卷积:也称为转置卷积,通过反卷积操作并不能还原出卷积之前的图片,只能还原出卷积之前图片的尺寸。
(
1
)
卷
积
(1) 卷积
(1)卷积
(
2
)
反
卷
积
(2) 反卷积
(2)反卷积
具体可以参考怎样通俗易懂地解释反卷积?
参考文献
[1] resnet中的残差连接,你确定真的看懂了?
[2] 彻底搞懂CNN中的卷积和反卷积
[3] 怎样通俗易懂地解释反卷积?