DIVE INTO DEEP LEARNING学习笔记2

最新推荐文章于 2024-09-14 21:53:48 发布

lamycies

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量381

点赞数 12

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamycies/article/details/136248816

版权

第四章：多层感知计

但是线性模型可能会出错，因此我们可以通过加入一个或多个隐藏层来克服线性模型的限制。最简单的就是把许多全连接层堆叠在一起，这就是多层感知机。

激活函数是一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。常见的激活函数如ReLU函数、sigmoid函数和tanh函数都是非线性的，从而使得神经网络逼近其他的任何非线性函数，校准模型。

欠拟合是指模型无法继续减少训练误差，过拟合是指训练误差远小于验证误差。由于不能基于训练误差来估计泛化误差，因此简单地最小化训练误差并不一定意味着泛化误差的减小。机器学习模型需要注意防止过拟合，即防止泛化误差过大。验证集可以用于模型选择，但不能过于随意地使用它。

暂退法在前向传播过程中，计算每一内部层的同时丢弃一些神经元，可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。暂退法将活性值h替换为具有期望值h的随机变量,仅在训练期间使用。

前向传播在神经网络定义的计算图中按顺序计算和存储中间变量，它的顺序是从输入层到输出层。反向传播按相反的顺序（从输出层到输入层）计算和存储神经网络的中间变量和参数的梯度。在训练深度学习模型时，前向传播和反向传播是相互依赖的。训练比预测需要更多的内存。

梯度消失和梯度爆炸是深度网络中常见的问题。在参数初始化时需要非常小心，以确保梯度和参数可以得到很好的控制。需要用启发式的初始化方法来确保初始梯度既不太大也不太小。ReLU激活函数缓解了梯度消失问题，这样可以加速收敛。随机初始化是保证在进行优化前打破对称性的关键。Xavier初始化表明，对于每一层，输出的方差不受输入数量的影响，任何梯度的方差不受输出数量的影响。

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。