C++数据类型之half float

最新推荐文章于 2024-03-16 09:51:26 发布

头发光了你就强了

最新推荐文章于 2024-03-16 09:51:26 发布

阅读量1.1w

点赞数 4

分类专栏： NV shader

本文链接：https://blog.csdn.net/qq_33345917/article/details/107843532

版权

NV shader 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

c++浮点类型只有float与double，最近工作需要用半精度浮点。
首先我们得搞清楚float在内存的二进制表示,详情见:IEEE754浮点定义
如下图：
在这里插入图片描述
float的内存表示由：1位符号为、8位指数位、23位有效数字位组成
组合公式为：

8指数位的理论取值范围为：[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表示-126,11111111表示nan(not a number)。
我们递推一下：
00000000：-126
00000001：-126
00000010：-125
00000011：-124
~
~
~
11111110:127
在加上底数2，指数的取值范围就为：[2**(-126) ,2127]
有效数字位视为23位无符号整数就行了。
符号位0表示正数
举个例子：
0 00000001 00000000000000000000001
(2(-126)) * 1 = 1.17549449095e-38
其实这就是C++float的最小值
再看一个例子
0 11111110 11111111111111111111111
(2**(127))*8388607 = 3.40282346639e+38
这是c++float的最大值。
搞清楚float了，就很好理解 half float了：
在这里插入图片描述
解析规则按照float的解析规则递推就行了。
C++ half包：
C++ half float library
最好用C++11及以上版本

头发光了你就强了

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
C++数据类型之half float

c++浮点类型只有float与double，最近工作需要用半精度浮点。首先我们得搞清楚float在内存的二进制表示,详情见:IEEE754浮点定义如下图：float的内存表示由：1位符号为、8位指数位、23位有效数字位组成组合公式为：8指数位的理论取值范围为：[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表示-126,11111111表示nan(not a number)。我们递推一下：00000000：-126
复制链接

扫一扫