浅谈浮点数

最新推荐文章于 2024-04-23 17:23:51 发布

华清远见嵌入式学院

最新推荐文章于 2024-04-23 17:23:51 发布

阅读量773

点赞数

分类专栏： linux嵌入式方向文章标签： float 存储嵌入式数据结构 android qt

本文链接：https://blog.csdn.net/farsight2009/article/details/7387505

版权

linux嵌入式方向专栏收录该内容

495 篇文章 40 订阅

订阅专栏

作者：冯建,华清远见嵌入式培训中心讲师。

浮点型变量在计算机内存中占用4字节（Byte）,即32-bit。遵循IEEE-754格式标准。

一个浮点数由2部分组成：底数m 和指数e。

±mantissa × 2exponent（注意，公式中的mantissa 和 exponent使用二进制表示）

底数部分　使用２进制数来表示此浮点数的实际值。

指数部分　占用８-bit的二进制数，可表示数值范围为0－255。　但是指数应可正可负，所以IEEE规定，此处算出的次方须减去127才是真正的指数。所以float的指数可从 -126到128。

底数部分实际是占用24-bit的一个值，由于其最高位始终为 1 ，所以最高位省去不存储，在存储中只有23-bit。

到目前为止，底数部分 23位加上指数部分 8位使用了31位。那么前面说过，float是占用4个字节即 32-bit，那么还有一位是干嘛用的呢？还有一位，其实就是4字节中的最高位，用来指示浮点数的正负，当最高位是1时，为负数，最高位是0时，为正数。

浮点数据就是按下表的格式存储在4个字节中：

Address+0 Address+1 Address+2 Address+3
        Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
        S: 表示浮点数正负，1为负数，0为正数
        E: 指数加上127后的值的二进制数
        M: 24-bit的底数（只存储23-bit）

注意：这里有个特例，浮点数为0时，指数和底数都为0，但此前的公式不成立。因为2的0次方为1，所以0是个特例。当然，这个特例也不用认为去干扰，编译器会自动去识别。

通过上面的格式，我们下面举例看下-12.5在计算机中存储的具体数据：

Address+0 Address+1 Address+2 Address+3
Contents 0xC1 0x48 0x00 0x00

接下来我们验证下上面的数据表示的到底是不是-12.5，从而也看下它的转换过程。

由于浮点数不是以直接格式存储，他有几部分组成，所以要转换浮点数，首先要把各部分的值分离出来。

        Address+0 Address+1 Address+2 Address+3
                格式 SEEEEEEE EMMMMMMM MMMMMMMM MMMMMMMM
                二进制 11000001 01001000 00000000 00000000
                16进制 C1 48 00 00
        可见：
                S: 为1，是个负数。
                E:为 10000010 转为10进制为130，130-127=3，即实际指数部分为3.
                M:为 10010000000000000000000。

这里，在底数左边省略存储了一个1，使用实际底数表示为 1.10010000000000000000000 。

现在，我们通过指数部分E的值来调整底数部分M的值。调整方法为：如果指数E为负数，底数的小数点向左移，如果指数E为正数，底数的小数点向右移。小数点移动的位数由指数E的绝对值决定。

这里，E为正3，使用向右移3为即得：1100.10000000000000000000。

至次，这个结果就是12.5的二进制浮点数，将他换算成10进制数就看到12.5了，如何转换，看下面：

小数点左边的1100 表示为 (1 × 23) + (1 × 22) + (0 × 21) + (0 × 20), 其结果为 12 。

小数点右边的 .100… 表示为 (1 × 2-1) + (0 × 2-2) + (0 × 2-3) + ... ，其结果为.5 。

以上二值的和为12.5，由于S 为1，使用为负数，即-12.5 。

所以，16进制 0XC1480000 是浮点数 -12.5 。

上面是如何将计算机存储中的二进制数如何转换成实际浮点数，下面看下如何将一浮点数装换成计算机存储格式中的二进制数。

举例将17.625换算成 float型。

首先，将17.625换算成二进制位：10001.101 ( 0.625 = 0.5+0.125, 0.5即 1/2, 0.125即 1/8 如果不会将小数部分转换成二进制，请参考其他书籍。) 再将 10001.101 向右移，直到小数点前只剩一位成了 1.0001101 x 2的4次方（因为右移了4位）。此时我们的底数M和指数E就出来了：

底数部分M，因为小数点前必为1，所以IEEE规定只记录小数点后的就好，所以此处底数为 0001101 。

指数部分E，实际为4，但须加上127，固为131，即二进制数 10000011

符号部分S，由于是正数，所以S为0。

综上所述，17.625的 float 存储格式就是：0 10000011 00011010000000000000000

转换成16进制：0x41 8D 00 00

所以，一看，还是占用了4个字节。

接下来看存储：

Float数据结构：
【S】【30——Exp——23】【22——Frac——0】

Double数据结构：
                【S】【62——Exp——52】【51——Frac——0】
        S: Sign bit 符号位
        Exp: exponent(bias) 指数(偏移)
        Frac: fraction 有效位数

Exp在公式中是2的幂，接近零的小数的描述应为有符号数，有符号数的表示可以为符号位+数字位、补数等，IEEE754采用的是偏移法，不作过多解释。

对Float偏移量为0x7F(127)、Double偏移量为0x3FF(1023)。

Frac便是有效位数，

注释浮点值 S Exp Frac 数学值
        -----------------------------------------------------------------------
        零 0x00000000 0 0x00 0B000...000 0.0
        -----------------------------------------------------------------------
        Min正次正规数 0x00000001 0 0x00 0B000...001 1.40129846e^-45
        Max正次正规数 0x007FFFFF 0 0x00 0B111...111 1.17549421e^-38
        -----------------------------------------------------------------------
        Min正正规数 0x00800000 0 0x01 0B000...000 1.17549435e^-38
        Max正正规数 0x7F7FFFFF 0 0xFE 0B111...111 3.40282347e^+38
        -----------------------------------------------------------------------
        Not a Number 0xXXXXXXXX x 0xFF 0Bxxx...xxx NaN是一个数族
        正无限 0x7F800000 0 0xFF 0B000...000 +Inf
        负无限 0xFF800000 1 0xFF 0B000...000 -Inf

首先举例求Float_Max正正规数：

Exp =0xFE = 254；
         Frac=(2^23 - 1)
        代入： 2^127 * (1 + (2^23-1) * 2^-23)
        = 2^128 - 2^104
        = 3.4028e+38

其它的可自己求。

所以float 型的幂是38，Double的幂应该是308。

华清远见嵌入式学院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅谈浮点数

作者：冯建,华清远见嵌入式培训中心讲师。浮点型变量在计算机内存中占用4字节（Byte）,即32-bit。遵循IEEE-754格式标准。一个浮点数由2部分组成：底数m 和指数e。±mantissa × 2exponent（注意，公式中的mantissa 和 exponent使用二进制表示）底数部分　使用２进制数来表示此浮点数的实际值。指数部分　占用８-bit的二进制数，可表示数
复制链接

扫一扫