问题描述:昨天训练好好的程序,晚上走之前又跑上,冻结训练50epochs,到51epoch还没开始,就爆显存了。前几天两个2080Ti跑这个程序,显存占用只有7000MB+6000MB,今天突然就爆了。
解决:于是查看所有占用GPU的进程,好像除了桌面也没什么。。。然后关闭所有shell,也是不行。。。有老哥说我应该是没有清空显存直接训练了,我也不知道这玩意咋清空。。。后来换了备份的程序重新跑时可以的,于是确定是程序问题,,,最终发现昨晚突发奇想想试试608x608的训练效果,于是查看确实输入shape是608x608,改为416x416,正常训练!
真没想到608比416多占用这么多显存。。。