https://www.bilibili.com/video/av43533515
在使用均方差误差函数时,可能陷入梯度消失?能否选择交叉熵函数?有何影响?
问题:
1、收敛太慢
2、由于参数量大容易过拟合
正则化项
Dropout 用于在神经网络中防止过拟合
激活函数
梯度消失:在迭代过程中梯度趋向于零,这就意味着参数将无法进行学习(变更)
损失函数改为交叉熵就能解决梯度消失的问题吗?不能
ReLU函数的优化
梯度爆炸:梯度太大超过计算机能表示的数的范围