Pytorch中的一些训练技巧

最新推荐文章于 2024-09-14 16:42:57 发布

咆哮的阿杰

最新推荐文章于 2024-09-14 16:42:57 发布

阅读量1.7k

点赞数 1

分类专栏： Pytorch

本文链接：https://blog.csdn.net/qq_34914551/article/details/100064838

版权

Pytorch 专栏收录该内容

27 篇文章 11 订阅

订阅专栏

冻结bn层

如果你使用了预训练模型，并且显卡不支持你使用很大的batch size，那么冰冻bn的参数就是很好的选择，因为在imageNet上预训练的模型，bn层会获得很好的running mean和running var。

   for name, m in model.named_modules():
        if isinstance(m, nn.BatchNorm2d):
            m.eval()
            m.weight.requires_grad = False
            m.bias.requires_grad = False

固定随机种子

如果想检查你设计的网络究竟正不正常，最好将每次调试都把参数初始化设置为一致的。

torch.manual_seed(0)
torch.cuda.manual_seed_all(0)

提升训练阶段forward的速度

如果你的网络没有控制流，我建议在import之后就加入以下两行代码

torch.backends.cudnn.benchmark = True
torch.backends.cudnn.deterministic = True

原因是：设置 torch.backends.cudnn.benchmark=True 将会让程序在开始时花费一点额外时间，为整个网络的每个卷积层搜索最适合它的卷积实现算法，进而实现网络的加速。适用场景是网络结构固定（不是动态变化的），网络的输入形状（包括 batch size，图片大小，输入的通道）是不变的，其实也就是一般情况下都比较适用。反之，如果卷积层的设置一直变化，将会导致程序不停地做优化，反而会耗费更多的时间。

warmUp预热+学习率呈余弦变化

余弦学习率的公式如下：
$base\_lr \times 0.5 \times (1+ cos(\frac{global\_step}{max\_steps} * Pi)$
WarmUp的公式如下：
$base\_lr \times 1.0 \times \frac{global\_step}{warmup\_total_steps} if global\_step < warmup\_total\_steps$

loss采用标签平滑

标签平滑的作用不再多说，各大比赛优秀方案几乎都采用标签平滑。下面附一段从旷世开源的shuffleNet系列中截取的一段，用于分类任务的标签平滑的loss。

class CrossEntropyLabelSmooth(nn.Module):

	def __init__(self, num_classes, epsilon):
		super(CrossEntropyLabelSmooth, self).__init__()
		self.num_classes = num_classes
		self.epsilon = epsilon
		self.logsoftmax = nn.LogSoftmax(dim=1)

	def forward(self, inputs, targets):
		log_probs = self.logsoftmax(inputs)
		targets = torch.zeros_like(log_probs).scatter_(1, targets.unsqueeze(1), 1)
		targets = (1 - self.epsilon) * targets + self.epsilon / self.num_classes
		loss = (-targets * log_probs).mean(0).sum()
		return loss