FP16数据格式详解

1. 浮点格式说明

浮点数的格式通常由三部分组成:符号位(Sign bit)、指数部分(Exponent)和尾数部分(Significand/Fraction)。整个浮点数占用的位数取决于不同的浮点数格式。例如,IEEE 754标准的单精度浮点数(float)有32位,双精度浮点数(double)有64位。参考:Floating-point arithmetic

最终的浮点表示如下,s是significand;p是precision精度(significand中的数字的个数);b是base,这里base用的是10或者2。
s b p − 1 × b e \frac{s}{b^{p-1}} \times b^e bp1s×be

一个具体的示例如下:
在这里插入图片描述

float32/bfloat16/float16/tf32三种格式的比较:
在这里插入图片描述

2. Normal number

最小的normal number用 b E m i n b^{E_{min}} bEmin 表示,最大的normal number用
b E m a x ⋅ ( b − b 1 − p ) b^{E_{max}} \cdot (b-b^{1-p}) bEmax(bb1p) ,其中 E m i n = ( − E m a x ) + 1 E_{min} = (-E_{max}) + 1 Emin=(Emax)+1。常用的格式如下:
在这里插入图片描述

3. FP16 Subnormal number

低能数(Subnormal numbers)是指那些比通常能够表示的数字要小的数字。在浮点数的规格化表示中,如果一个数的指数部分全为0且尾数部分不为0,那么这个数就被称为低能数。

对于FP16来说,sign是1位,exponent是5位,fraction是10位。

在这里插入图片描述

对于Exponent表示的范围如下:

  • E m i n = 0000 1 2 − 0111 1 2 = − 14 E_{min} = 00001_2 - 01111_2 = -14 Emin=000012011112=14
  • E m a x = 1111 0 2 − 0111 1 2 = 15 E_{max} = 11110_2 - 01111_2 = 15 Emax=111102011112=15
  • E x p o n e n t   b i a s = 0111 1 2 = 15 Exponent\ bias = 01111_2 = 15 Exponent bias=011112=15

对于FP16表示的范围如下,当Exponent为0且Significand不为0时,对应就是subnormal number的范围,也就是 0.000000059604645 ∼ 0.000060975552 0.000000059604645 \sim 0.000060975552 0.0000000596046450.000060975552

在这里插入图片描述
在这里插入图片描述

4. 参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MLTalks

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值