1.过拟合欠拟合及其解决方案
一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting)。
模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。
2.梯度消失梯度爆炸
深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。
假设一个层数为 L L L的多层感知机的第 l l l层 H ( l ) \boldsymbol{H}^{(l)} H(l)的权重参数为 W ( l ) \boldsymbol{W}^{(l)} W(l),输出层 H ( L ) \boldsymbol{H}^{(L)} H(L)的权重参数为 W ( L ) \boldsymbol{W}^{(L)} W</
过拟合欠拟合及其解决方案;梯度消失梯度爆炸;循环神经网络进阶;机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer;卷积神经网络基础;leNet;卷积神经网络进阶
最新推荐文章于 2023-02-23 21:36:36 发布