Multi_Layer Perceptron

最新推荐文章于 2023-10-13 15:35:37 发布

miya1028

最新推荐文章于 2023-10-13 15:35:37 发布

阅读量525

点赞数

本文链接：https://blog.csdn.net/miya1028/article/details/80334875

版权

"""深度学习特点：层数越深，概念越抽象，需要背诵的知识点(神经网络隐含节点)就越少。不过实际应用中，使用层数较深的神经网络会遇到许多困难，比如容易过拟合，参数难以调试，梯度弥散，等等。
过拟合：
指模型预测准确率在训练集上升高，但是在测试集上反而下降了，通常意味着泛化性不好。
为了解决这个问题，Hinton教授团队提出了一个思路简单但是非常有效的方法，Dropout.其实也算是一种bagging方法，我们可以理解成为每次丢弃节点数据是对特征的一种采样。
相当于我们训练了一个ensemble的神经网络模型，对每个样本都做特征采样，只不过没有训练多个神经网络模型，只有一个融合的神经网络。
参数难以调试：
尤其是SGD的参数，对SGD设置不同的学习速率，最后得到的结果可能差异巨大，神经网络通常不是一个凸优化的问题，它处处充满了局部最优。因此就有像Adagrad,Adam,Adadelta等自适应的方法可以减轻调试参数的负担。
对于这些优化算法，通常我们使用它默认的参数设置就可以取得一个比较好的效果。而SGD则需要对学习速率，Momentum,Nesterov等参数进行比较复杂的调试。
梯度弥散（Gradient Vanishment):
在Relu激活函数出现之前，神经网络的训练全部都是用Sigmoid作为激活函数，但是当神经网络层数较多时，Sigmoid函数在反向传播中，梯度值会逐渐减小（呈指数级急剧减小）。
直到Relu的出现，才比较完美的解决了梯度弥散的问题，Relu是一个简单的非线性函数y=max(0,x),它在坐标轴上是一条折线。
当然神经网络的输出层一般都还是Sigmoid函数，因为它最接近

最低0.47元/天解锁文章

miya1028

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Multi_Layer Perceptron

"""深度学习特点：层数越深，概念越抽象，需要背诵的知识点(神经网络隐含节点)就越少。不过实际应用中，使用层数较深的神经网络会遇到许多困难，比如容易过拟合，参数难以调试，梯度弥散，等等。过拟合：指模型预测准确率在训练集上升高，但是在测试集上反而下降了，通常意味着泛化性不好。为了解决这个问题，Hinton教授团队提出了一个思路简单但是非常有效的方法，Dropout.其实也算是一种bagging...
复制链接

扫一扫