一、 Loss 问题
首先,loss 用的是 三元组损失,标签平滑交叉熵损失,调试的过程中出了两个错误
(1) float,list dtype不一样的问题,问题出在了 下边的 len(),忘了写了,导致class_names是一个列表,不是我们需要的长度。
(2) 维度不匹配
原因是出在了 train.py 训练程序里边的训练和验证环节(train和 val) net返回的特征不一样导致,所以出错。
二、 分层学习率问题
一开始按照net(model)的模块名字写上去,这个思想是没问题的,但是因为太多了,导致复制粘贴重复了一次,导致出错。
要细心
三、多GPU 处理程序
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'
device_ids = [0, 1]
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
inputs = inputs.cuda()
labels = labels.cuda()
model = nn.DataParallel(model, device_ids=device_ids)
model = model.to(device)#先cuda
注意, 分层不同学习率,需要加model.moudule.xxxx