- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 Batch Size大小对训练过程的影响
现在绝大多数的框架在进行mini-batch的反向传播的时候,默认都是将batch中每个instance的loss平均化之后在进行反向传播,所以相对大一点的batch size能够防止loss震荡的情况发生。从这两张图中可以看出batch size越小,相邻iter之间的loss震荡就越厉害,相应的,反传回去的梯度的变化也就越大,也就越不利于收敛。同时很有意思的一个现象,batch si...
2019-10-24 16:35:15 1921
转载 Warmup Learning
Warmup学习率并不是一个新颖的东西, 在很多task上面都被证明是有效的,标准Baseline使用是的常见阶梯下降型学习率,初始学习率为3.5e-4,总共训,120个epoch,在第40和70个epoch进行学习率下降。用一个很大的学习率初始化网路可能使得网络震荡到一个次优空间,因为网络初期的梯度是很大的。Warmup的策略就是初期用一个逐渐递增的学习率去初始化网络,渐渐初始化到...
2019-10-08 17:15:19 1499
用于神经网络,深度学习和机器学习模型的可视化工具
2020-04-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人