DIVE INTO DEEP LEARNING学习笔记2

第四章:多层感知计

        但是线性模型可能会出错,因此我们可以通过加入一个或多个隐藏层来克服线性模型的限制。最简单的就是把许多全连接层堆叠在一起,这就是多层感知机。

        激活函数是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。常见的激活函数如ReLU函数、sigmoid函数和tanh函数都是非线性的,从而使得神经网络逼近其他的任何非线性函数,校准模型。

        欠拟合是指模型无法继续减少训练误差,过拟合是指训练误差远小于验证误差。由于不能基于训练误差来估计泛化误差,因此简单地最小化训练误差并不一定意味着泛化误差的减小。机器学习模型需要注意防止过拟合,即防止泛化误差过大。验证集可以用于模型选择,但不能过于随意地使用它。

        暂退法在前向传播过程中,计算每一内部层的同时丢弃一些神经元,可以避免过拟合,它通常与控制权重向量的维数和大小结合使用的。暂退法将活性值h替换为具有期望值h的随机变量,仅在训练期间使用。

        前向传播在神经网络定义的计算图中按顺序计算和存储中间变量,它的顺序是从输入层到输出层。反向传播按相反的顺序(从输出层到输入层)计算和存储神经网络的中间变量和参数的梯度。在训练深度学习模型时,前向传播和反向传播是相互依赖的。训练比预测需要更多的内存。

        梯度消失和梯度爆炸是深度网络中常见的问题。在参数初始化时需要非常小心,以确保梯度和参数可以得到很好的控制。需要用启发式的初始化方法来确保初始梯度既不太大也不太小。ReLU激活函数缓解了梯度消失问题,这样可以加速收敛。随机初始化是保证在进行优化前打破对称性的关键。Xavier初始化表明,对于每一层,输出的方差不受输入数量的影响,任何梯度的方差不受输出数量的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值