C++数据类型之half float

c++浮点类型只有float与double,最近工作需要用半精度浮点。
首先我们得搞清楚float在内存的二进制表示,详情见:IEEE754浮点定义
如下图:
在这里插入图片描述
float的内存表示由:1位符号为、8位指数位、23位有效数字位组成
组合公式为:
在这里插入图片描述
8指数位的理论取值范围为:[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表示-126,11111111表示nan(not a number)。
我们递推一下:
00000000:-126
00000001:-126
00000010:-125
00000011:-124
~
~
~
11111110:127
在加上底数2,指数的取值范围就为:[2**(-126) ,2127]
有效数字位视为23位无符号整数就行了。
符号位0表示正数
举个例子:
0 00000001 00000000000000000000001
(2
(-126)) * 1 = 1.17549449095e-38
其实这就是C++float的最小值
再看一个例子
0 11111110 11111111111111111111111
(2**(127))*8388607 = 3.40282346639e+38
这是c++float的最大值。
搞清楚float了,就很好理解 half float了:
在这里插入图片描述
解析规则按照float的解析规则递推就行了。
C++ half包:
C++ half float library
最好用C++11及以上版本

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值