跑yolov7想用无人机数据集VisDrone,四张2080跑128的batchsize根本跑不起,于是跳到32,跑通了,结果没多久又oom了。
使用一张2080,batchsize设为8进行实验,发现第一个epoch时为7.39G,跑到第30个epoch已经暴涨到10.5G,而2080只能到11G左右,所以肯定跑不完300个epoch。
为什么一边跑显存一边飞涨呢?而且每个数据集情况不一样。
再测试一下四卡跑8的batchsize,看看能不能跑到收敛,实在不行只能用四张3090或者八张2080一起训练了,太难受了。