【LLM入门】Let‘s reproduce GPT-2 (124M) | Section2 加快你的模型训练【混合精度训练,模型编译,flash attention,2的幂】

视频from:https://www.youtube.com/watch?v=l8pRSuU81PU

01:22:18 SECTION 2: Let’s make it fast. GPUs, mixed precision, 1000ms
01:28:14 Tensor Cores, timing the code, TF32 precision, 333ms
01:39:38 float16, gradient scalers, bfloat16, 300ms
01:48:15 torch.compile, Python overhead, kernel fusion, 130ms
02:00:18 flash attention, 96ms
02:06:54 nice/ugly numbers. vocab size 50257 → 50304, 93ms

总结:

1
在这里插入图片描述

2
在这里插入图片描述

3
在这里插入图片描述

4
在这里插入图片描述

5
在这里插入图片描述


01:22:18 SECTION 2: Let’s make it fast. GPUs, mixed precision, 1000ms

军火展示
在这里插入图片描述

不同数据类型所能获得的计算量
在这里插入图片描述

gpu默认, 时间:1000ms【第一次比较慢,初始化一些】
在这里插入图片描述

每秒处理多少个token?
在这里插入图片描述

一行代码就可以加速/启用!【tf32,提升3倍!】
在这里插入图片描述

01:39:38 float16, gradient scalers, bfloat16, 300ms

混合精度训练

文档

在这里插入图片描述
最简单的使用方法:
在这里插入图片描述

在这里插入图片描述

01:48:15 torch.compile, Python overhead, kernel fusion, 130ms

在这里插入图片描述

02:00:18 flash attention, 96ms

在这里插入图片描述
在这里插入图片描述

02:06:54 nice/ugly numbers. vocab size 50257 → 50304, 93ms【2的幂】

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值