解决网络训练验证过程中显存增加的原因

最新推荐文章于 2024-06-18 11:00:39 发布

ChandelerGause

最新推荐文章于 2024-06-18 11:00:39 发布

阅读量5.6k

点赞数 7

文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/ChandelerGause/article/details/121303409

版权

最近在训练网络时发现网络训练了几个epoch之后就会出现OOM
一开始以为是内存不够，后来才发现是在网络训练过程中，显存会不断的增加。
针对以上的问题，查找资料总结了三种有用的方式

训练过程过程中，保存参数加.item()
原代码：

def train_one_epoch(
    model, criterion, train_dataloader, optimizer, epoch, clip_max_norm
):
    model.train()
    device = next(model.parameters()).device
    train_loss = 0
   
    for i, d in enumerate(train_dataloader):
        d = d.to(device)

        optimizer.zero_grad()
        out_net = model(d)
        loss = criterion(out_net, d, epoch)
        train_loss += loss

        loss.backward()
        if clip_max_norm > 0:

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ChandelerGause

关注关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
2
评论
解决网络训练验证过程中显存增加的原因

最近在训练网络时发现网络训练了几个epoch之后就会出现OOM一开始以为是内存不够，后来才发现是在网络训练过程中，显存会不断的增加。针对以上的问题，查找资料总结了三种有用的方式训练过程过程中，保存参数加.item()原代码：def train_one_epoch( model, criterion, train_dataloader, optimizer, epoch, clip_max_norm): model.train() device = next(model
复制链接

扫一扫