2019年10月_行*云

12月 11月 10月 09月 07月 06月 05月 04月 03月 01月

原创 Batch Size大小对训练过程的影响

现在绝大多数的框架在进行mini-batch的反向传播的时候，默认都是将batch中每个instance的loss平均化之后在进行反向传播，所以相对大一点的batch size能够防止loss震荡的情况发生。从这两张图中可以看出batch size越小，相邻iter之间的loss震荡就越厉害，相应的，反传回去的梯度的变化也就越大，也就越不利于收敛。同时很有意思的一个现象，batch si...

2019-10-24 16:35:15 1921

转载 Warmup Learning

Warmup学习率并不是一个新颖的东西，在很多task上面都被证明是有效的，标准Baseline使用是的常见阶梯下降型学习率，初始学习率为3.5e-4，总共训,120个epoch，在第40和70个epoch进行学习率下降。用一个很大的学习率初始化网路可能使得网络震荡到一个次优空间，因为网络初期的梯度是很大的。Warmup的策略就是初期用一个逐渐递增的学习率去初始化网络，渐渐初始化到...

2019-10-08 17:15:19 1499

用于神经网络，深度学习和机器学习模型的可视化工具

支持ONNX（.onnx，.pb，.pbtxt），Keras（.h5，.keras），Caffe（.caffemodel，.prototxt），Caffe2（predict_net.pb，predict_net.pbtxt），MXNet（.model，-symbol.json），ncnn（.param）和TensorFlow等模型可视化

2020-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人