深度神经网络中的难点

最新推荐文章于 2023-06-20 21:08:22 发布

牛板筋不筋

最新推荐文章于 2023-06-20 21:08:22 发布

阅读量751

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42198024/article/details/100064352

版权

深度学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

一：消失的gradient问题 (vanishing gradient problem)

>>> import mnist_loader

>>> training_data, validation_data, test_data = \

... mnist_loader.load_data_wrapper()

>>> import network2

>>> net = network2.Network([784, 30, 10])

>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0,

... evaluation_data=validation_data, monitor_evaluation_accuracy=True)

结果: 96.48%

加入一个隐藏层:

>>> net = network2.Network([784, 30, 30, 10])

>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0,

... evaluation_data=validation_data, monitor_evaluation_accuracy=True)

结果: 96.9%

再加入一个隐藏层:

>>> net = network2.Network([784, 30, 30, 30, 10])

>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0,

... evaluation_data=validation_data, monitor_evaluation_accuracy=True)

结果: 96.57%

为什么加入一层反而降低了准确率?

条形区域长度代表∂C/∂b, Cost对于bias的变化率（这个地方的推导没怎么看懂）

二：学习速率

再增加一层:
[784,30,30,30,30,10]

可以看出, 第一个隐藏层比第四个几乎要慢100

这种现象普遍存在于神经网络之中, 叫做: vanishing gradient problem

另外一种情况是内层的梯度被外层大很多, 叫做exploding gradient problem

所以说神经网络算法用gradient之类的算法学习存在不稳定性

训练深度神经网络, 需要解决vanishing gradient problem

三：造成vanishing gradient problem的原因

每层的学习速率会由于一个固定的比值越来越大或越来越小，但是为什么会造成vanishing gradient problem（估计就是这样定义的）

牛板筋不筋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络中的难点

一：消失的gradient问题 (vanishing gradient problem)>>> import mnist_loader>>> training_data, validation_data, test_data = \... mnist_loader.load_data_wrapper()>>> import ne...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。