浮点数存储规则

哆啦162

已于 2024-03-20 17:54:35 修改

阅读量292

点赞数 4

文章标签： c语言

于 2024-03-20 15:33:08 首次发布

本文链接：https://blog.csdn.net/qq_56800700/article/details/136875258

版权

一、存入

根据国际标准IEEE（电气和电子工程协会）754，任意一个二进制浮点数V可以表示成下面的形式：

（-1）^S*M*2^E
（-1）^S表示符号位，当S=0，V为正数；当S=1，V为负数。
M表示有效数字，大于等于1，小于2.
2^E表示指数位

例如：

        十进制的5.0，写成二进制是101.0，相当于1.01*2^2。

        那么，按照上面V的格式，可以得出S=0，M=1.01，E=2.



        十进制的9.5，写成二进制是1001.1 ，相当于1.0011*2^3

        那么，按照上面V的格式，可以得出S=0，M=1.0011，E=3.



        十进制的9.6，写成二进制是1001.100.......无法精确到9.6

浮点数的二进制表示形式

9.5 --> 1001.1

第一位的1表示1*2^3

第二位的0表示0*2^2

第三位的0表示0*2^1

第四位的1表示1*2^0

小数点后

第一位表示1*2^(-1)

IEEE754规定：

对于32位的浮点数，最高的1位是符号位s，接着的8位是指数位E，剩下的23位为有效数字M

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位是有效数字M

IEEE754对于M和E还有一些特别的规定

对于M：

1<=M<2，也就是说，M可以写成1.xxxxxx的形式，其中xxxxxx表示小数部分。

IEEE754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的是节省1位有效数字。以32位浮点数为例，留给M的只有23位，将第1位的1舍去以后，等于可以保存24位有效数字了。

对于E：

        E的情况比较复杂，首先，E是一个无符号整数（unsigned int），这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。

        但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。

        比如2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001.

例如：V=0.5f

              =0.1

              =1.0*2^(-1)

              =(-1)^0*1.0*2^(-1)

                S=0        M=1.0        E= -1

float        ->        E(真实值)+127(中间值)        -> 126         -存储

double    ->        E(真实值)+1023(中间值)      -> 1022       -存储

二、取出

指数E从内存中取出分为三种情况:

E不全为0或者不全为1

        这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1.

        比如：

        0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1),其阶码为-1+127=126，表示为01111110，而尾数1.0去掉正数部分为0，补齐0到23位0000000000000000000000，则其二进制表示形式为：

        0 01111110 00000000000000000000000