使用apex进行半精度计算

pp_42

已于 2023-03-06 14:50:52 修改

阅读量247

点赞数

文章标签：深度学习人工智能 Powered by 金山文档

于 2023-03-01 20:33:38 首次发布

本文链接：https://blog.csdn.net/pipi_42/article/details/129289114

版权

from apex import amp

# 定义网络和优化器
model = ...
optimizer = ...

# 将优化器转换为半精度
model, optimizer = amp.initialize(model, optimizer, opt_level="O2")

# 正常的训练循环
for inputs, labels in data_loader:
    # 前向传播
    outputs = model(inputs)

    # 计算损失
    loss = ...

    # 反向传播和优化
    optimizer.zero_grad()
    with amp.scale_loss(loss, optimizer) as scaled_loss:
        scaled_loss.backward()
    optimizer.step()

其中只有一个opt_level需要用户自行配置：

O0：纯FP32训练，可以作为accuracy的baseline；

O1：混合精度训练（推荐使用），根据黑白名单自动决定使用FP16（对 Tensor Core 友好的操作, 如GEMM, 卷积）还是FP32（Softmax）进行计算。

O2：“几乎FP16”混合精度训练，不存在黑白名单，除了Batch norm，几乎都是用FP16计算。

O3：纯FP16训练，很不稳定，但是可以作为speed的baseline；

模型先放GPU

再用apex.initialize进行混合精度初始化

最后再并行化，顺序不能错

pp_42

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用apex进行半精度计算

O1：混合精度训练（推荐使用），根据黑白名单自动决定使用FP16（对 Tensor Core 友好的操作, 如GEMM, 卷积）还是FP32（Softmax）进行计算。O2：“几乎FP16”混合精度训练，不存在黑白名单，除了Batch norm，几乎都是用FP16计算。O3：纯FP16训练，很不稳定，但是可以作为speed的baseline；O0：纯FP32训练，可以作为accuracy的baseline；再用apex.initialize进行混合精度初始化。最后再并行化，顺序不能错。
复制链接

扫一扫