batchsize算法:4*1*8卡
loss:收敛越来越小
精度如何看
没有精度值,看loss值,越来越小,收敛到一定规模(pretrain 0.00x,finetune收敛到1.7~1.8
pretrain和finetune的区别
参数规模:pretrain全参数量一起训练、lora是使用一部分参数来训练
ai训练总结
最新推荐文章于 2024-08-07 11:00:00 发布
本文探讨了在使用batchsize算法时,观察loss值的变化趋势来评估模型收敛情况,强调了pretrain和finetune阶段的区别,指出pretrain阶段精度较低但全参数参与,而finetune阶段收敛到1.7~1.8,部分参数被利用。
摘要由CSDN通过智能技术生成