- 博客(1)
- 收藏
- 关注
原创 AL遮天传 DL-深度学习模型的训练技巧_al是怎么训练
大,这说明虽然在前面的历史过程中,**第九个参数的梯度的绝对值比较小,但在本次就多更新一些;相反的第三次参数的梯度的绝对值比较大,在更新时就少更新一些。当使用SGD时, 不同迭代次数时输入到神经网络的数据不同,可能导致某些层输出的分布在不同迭代次数时不同。地调整各个参数的学习率,这并不一定是最优的学习方式(如不同层的权值的更新率不一定非要相同),对c(t)的贡献指数级衰减,即比较看重近期的g的平方,这样c可能增加也可能减少。需要调整神经元输出的权重,用来弥补训练中只有一部分被激活的现象。
2024-09-12 14:43:19 454
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人