深度学习之模型退化

最新推荐文章于 2024-10-18 17:33:39 发布

gukedream

最新推荐文章于 2024-10-18 17:33:39 发布

阅读量1w

点赞数 4

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gukedream/article/details/88116268

版权

深度学习专栏收录该内容

28 篇文章 2 订阅

订阅专栏

定义：

对合适的深度模型继续增加层数，模型准确率会下滑（不是overfit造成），training error和test error都会很高。

如果梯度范数的大小本身和深度网络的训练困难并没有关系，那是什么原因呢？答案是，模型的退化基本上决定了训练性能。为什么退化会损害训练性能？直观地说，学习曲线基本上会在参数空间的退化方向变慢，因此退化会减少模型的有效维度。在以前，你可能会认为是用参数拟合模型，但实际上，由于退化，可以有效地拟合模型的自由度却变少了。上述的「Fold 0」和「Fold 1」网络的问题在于，虽然梯度范数值还不错，但是网络的可用自由度对这些范数的贡献非常不均衡：虽然一些自由度（非退化的）贡献了梯度的主要部分，但大部分（退化的）自由度对此没有任何贡献（仅作概念性的理解，并不是很准确的解释。可以理解为在每个层中只有少量的隐藏单元对不同的输入改变它们的激活值，而大部分隐藏单元对不同的输入都是相同的反应）。

参考：
1. 训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

2. 如何看待指出神经网络的训练罪魁祸首是退化一文？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。