一定层度上,网络越深表达能力越强,性能就越好
但是在加深深度网络的时候可能会出现,这个网络他训练来训练去,他的性能一直是那样不变,他的性能波动的非常的大。
解释一下下面几个的概念:
梯度消失:就是说我们每一层的梯度他都小于0,很多层的梯度相乘的时候,最高层的那些梯度就会变得非常非常的低,就相当于最高层的梯度已经不更新了, 这样当然就学不到一个好的模型。
梯度爆炸:这个梯度值非常大,很多层的梯度进行相乘的时候,梯度就会变得越来越大,更新的就会非常剧烈,这个时候就会有梯度爆炸的问题。
但是这两个原因并不是深度网络变现差的根本原因 ,他的根本原因是因为他的学习的权重矩阵发生了退化:
每个层中只有少量的隐藏单元对不同的输入改变他们的激活值,而大部分隐藏单元对不同的输入都是相同的反应,此时整个权重矩阵的秩不高,并且随着网络层数的增加,连乘后使得整个 秩变得更低了。
为了缓解这种权重变化,加入残差的连接