X3D 模型有 XS SM L xl 几种
我跑的单卡 M 的版本 batchsize 只能设置到8
S 的版本batchsize 只能设置到16
batchsize 比较小的时候,训练的loss 就很容易上下跳动
比如:
然后记得caffe 里面有个iter_size 就是可以多几个batchsize 的时候在反传一次梯度
这个操作在pytorch 里面是:
https://blog.csdn.net/qq_38372240/article/details/107345859
这个cur_iter 是 全部的数据长度/BATCHSIZE
这个问题的答案是: 待解决