FP16数据格式详解

最新推荐文章于 2025-04-18 13:53:44 发布

MLTalks

最新推荐文章于 2025-04-18 13:53:44 发布

阅读量5.3k

点赞数 21

分类专栏：训练框架大模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qinduohao333/article/details/135175163

版权

大模型同时被 2 个专栏收录

34 篇文章

订阅专栏

19 篇文章

订阅专栏

1. 浮点格式说明

浮点数的格式通常由三部分组成：符号位(Sign bit)、指数部分(Exponent)和尾数部分(Significand/Fraction)。整个浮点数占用的位数取决于不同的浮点数格式。例如，IEEE 754标准的单精度浮点数（float）有32位，双精度浮点数（double）有64位。参考：Floating-point arithmetic

最终的浮点表示如下，s是significand；p是precision精度(significand中的数字的个数)；b是base，这里base用的是10或者2。
$\frac{s}{b^{p-1}} \times b^e$

一个具体的示例如下：
在这里插入图片描述

float32/bfloat16/float16/tf32三种格式的比较:
在这里插入图片描述

2. Normal number

最小的normal number用 $b^{E_{min}}$ 表示，最大的normal number用
$b^{E_{max}} \cdot (b-b^{1-p})$ ，其中 $E_{min} = (-E_{max}) + 1$ 。常用的格式如下：
在这里插入图片描述

3. FP16 Subnormal number

低能数（Subnormal numbers）是指那些比通常能够表示的数字要小的数字。在浮点数的规格化表示中，如果一个数的指数部分全为0且尾数部分不为0，那么这个数就被称为低能数。

对于FP16来说，sign是1位，exponent是5位，fraction是10位。

在这里插入图片描述

对于Exponent表示的范围如下：

$E_{min} = 00001_2 - 01111_2 = -14$
$E_{max} = 11110_2 - 01111_2 = 15$
$Exponent\ bias = 01111_2 = 15$

对于FP16表示的范围如下，当Exponent为0且Significand不为0时，对应就是subnormal number的范围，也就是 $\sim 0.000060975552$ 。

在这里插入图片描述

4. 参考

FP16数据格式详解

博客等级

码龄17年

44
原创

386
点赞

815
收藏

278
粉丝

关注

私信

热门文章

分类专栏

大模型 34篇
训练框架 19篇

展开全部收起

最新评论

Megatron-LM源码系列(一): 模型并行初始化
MLTalks: megatron代码里搜下 _MODEL_PARALLEL_GROUP
Megatron-LM源码系列(一): 模型并行初始化
森林好小子999: 真的会把tp和pp都划分到一个组里吗，我检查了nccl产生的通信域，确实没有这样的通信域，所以不确定是怎么来的。我只查到了pp组单独通信域，还有tp组单独的通信域。
Megatron-LM源码系列(一): 模型并行初始化
MLTalks: 这个是混合了TP和PP的通信分组，按MODEL_PARALLEL_GROUP来存的，图里是画了下这块具体的取值
Megatron-LM源码系列(一): 模型并行初始化
森林好小子999: 好的，我就是看到你4.4里最终的结论是：基于all_data_parallel_group_ranks分组中来得到模型并行通信组，结果为[g0, g1, g4, g5, g8, g9, g12, g13]和[g2, g3, g6, g7, g10, g11, g14, g15]。这里不太理解是什么组，为什么会8个DCU一个组呢？看起来也不是TP也不是DP也不是PP，那是什么呢？
Megatron-LM源码系列(一): 模型并行初始化
MLTalks: all_data_parallel_group_ranks数据并行通信组对应为 [g0, g2], [g1, g3], [g4, g6], [g5, g7], [g8, g10], [g9, g11], [g12, g14], [g13, g15] 看跟你这个一样的

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

MLTalks 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。