[每日一氵] Python 训练过程中，如何优雅的保存loss

氵文大师

已于 2022-05-12 15:55:30 修改

阅读量3.1k

点赞数 3

分类专栏：每日一氵文章标签： python

于 2022-04-24 16:22:44 首次发布

本文链接：https://blog.csdn.net/HaoZiHuang/article/details/124171704

版权

每日一氵专栏收录该内容

157 篇文章 11 订阅

订阅专栏

我为了看每个epoch 的平均loss

新建一个 list []
for 每个 step
	将 该 step 的 loss 放在上边那个list中
打印那个list的 均值

很麻烦，每次都得重新，而且 不优雅 ，主要是 不优雅

和上一篇氵文一样，本文也是从那个baseline 中扒下来的：

定义一个 Counter 类

用于记录他的均值、次数和总和
(当然你也可以加一个 last_num 用于记录上一个值)

class Counter:
    def __init__(self):
        self.count, self.sum, self.avg = 0, 0, 0
        return

    def update(self, value, num_updata=1):
        self.count += num_updata
        self.sum += value * num_updata
        self.avg = self.sum / self.count
        return

    def clear(self):
        self.count, self.sum, self.avg = 0, 0, 0
        return

用法：

# 在大循环外部先初始化这个类
loss_recorder = Counter()

for epoch in range(EPOCH):
    for batch in batch_loader:
    	out = model(batch)
    	loss = Loss(out, gt)
		
		# 这里更新那个对象
		loss_recorder.update(loss) # 当这里的loss你要转化成 float 的
		
		optimizer.zero_grad() # 优化器清空
		loss.backward() # 反向求导
		optimizer.step() # 更新优化器
		
	# 每个 epoch 打印一下这个loss
	print(loss_recorder.avg)

~~(你大概会说，就这，就这?? 额，好吧，感觉可能确实，就这，捂脸笑哭)~~

每次跑完，loss 就没了，我想保存下来，那么咱们用这个 Loss_Saver 类

class Loss_Saver:
    def __init__(self, moving=False):
        self.loss_list, self.last_loss = [], 0.0
        self.moving = moving  # 是否进行滑动平均操作
	
    def updata(self, value):
		# 只有进行滑动平均时，才会用到 self.last_loss 
		
        if not self.moving:
            self.loss_list += [value]
        elif not self.loss_list:
            self.loss_list += [value]
            self.last_loss = value
        else:
            update_val = self.last_loss * 0.9 + value * 0.1
            self.loss_list += [[update_val]]
            self.last_loss = update_val
        return

    def loss_drawing(self, root_file, encoding='gbk'):
    
    	# 这个用于在指定位置保存 loss 指标
        loss_array = np.array(self.loss_list)
        colname = ['loss']
        listPF = pd.DataFrame(columns=colname, data=loss_array)
        listPF.to_csv(f'{root_file}loss.csv', encoding=encoding)

这个类，用于在指定位置保存结果，用的时候这样用：

# 在训练的for循环开始之前，先定义一个loss保存类
losssaver, max_acc = Loss_Saver(), 0.0

然后就是训练中途，保存一下loss

 for epoch in range(opt.max_epoch):

        model.train()
        epoch_loss = Counter()
        train_dataset.update_num_epoch(epoch)
        for batch_id, batch in tqdm(enumerate(dataloader):
        	
        	inputs, target = batch
            pred = model(inputs)
            loss = loss_fn(pred, target)

            epoch_loss.updata(float(loss.item())) # 这里是之前咱们用的那个loss(Counter类)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        losssaver.updata(epoch_loss.avg)  # <----------- 这里就是保存loss的部分

在训练完毕后，把刚刚的loss保存一下：

root_exp_file = "model"
losssaver.loss_drawing(f'{root_exp_file}/{name_exp}/')
logger.info('finish training!')   # 顺便打印一个 finish training hhh(上一篇博客的)

这里这个 name_exp 变量也值得说叨说叨，一般来说，我们每次运行这个train文件，loss每次都会被覆盖，在懒得想名字的情况下，我们直接给他赋值一个随机的名字，时间一长(一般我一小时就忘了)诶，哪个是哪个的loss来着hhh

于是可以借鉴这个baseline中起名字的方法，直接给文件夹的名字赋值为当前的日期和时间

from datetime import datetime

time = datetime.now()
name_exp = f'{str(time.month).zfill(2)}{str(time.day).zfill(2)}_{str(time.hour).zfill(2)}' \
           f'{str(time.minute).zfill(2)}'