- 博客(2)
- 收藏
- 关注
原创 赛博炼丹指南——如何训练深度学习模型
主流的观点认为在训练transformer架构等复杂结构网络时最好采用Adam、AdamW等自适应的优化器,难以收敛的问题最好采用AMSgrad优化器,而在各个论文中优化器的选择似乎并不一定,主要还是依据实验效果确定,当然,大伙一般是不会专门做优化器的对比实验的。Kaiming初始化,但现在的深度网络普遍采用ReLU激活函数,这时候用Xavier初始化会使得多层网络的梯度越来越小,越深的网络越容易梯度消失,因此提出Kaiming初始化,其中n是输入层神经元个数。
2024-01-06 19:57:42 850
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人