float和double类型数据在内存中的存储方法

最新推荐文章于 2023-10-03 20:10:33 发布

canlynet

最新推荐文章于 2023-10-03 20:10:33 发布

阅读量412

点赞数

分类专栏：计算机原理

本文链接：https://blog.csdn.net/canlynet/article/details/84389814

版权

计算机原理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

float和double类型数据在内存中的存储方法

浮点数（单精度的float和双精度的double）在内存中以二进制的科学计数法表示，表达式为N = 2^E * F；其中E为阶码（采用移位存储），F为尾数。

float和double都由符号位、阶码、尾数三部分组成，float存储时使用4个字节，double存储时使用8个字节。各部分占用位宽如下所示：

符号位阶码尾数长度

float 1 8 23 32

double 1 11 52 64

符号位：0代表正数，1代表负数。

阶码：用移位表示法存储科学计数法中的指数数据：float阶码占8位，取值范围-128~127，但并没有按照移位表示法+128，而是+127。同理double要+1023。

尾数：尾数部分：用二进制的科学计数法表示后，去掉小数点前面恒定的1，只保留小数点后面的二进制数据，存入尾数位置即可。

上述中阶码也是指数位，但阶码和尾数的描述显然是看不懂的。我们继续。

比如8.25，二进制科学计数法表示为：1.00001*2^3，具体转换方法：8的二进制1000；.25的二进制.01：即0*2^(-1) + 1*2^(-2)。写为：1000.01，小数点左移3位，即转换完毕。

符号位确定：8.25为正数，符号位为0。

阶码的表示：阶码位3+127=130；二进制10000010，已经是8位。

尾数的表示：去掉小数点前面的1，为00001，后面补充0至23位：000 0100 0000 0000 0000 0000

最终8.25在内存里存储的二进制为：0100 0001 0000 0100 0000 0000 0000 0000

又比如11.4，二进制科学计数法表示：float：1.01101100110011001100110 * 2^3，double：1.0110 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1101 * 2^3，所以他们的值其实是不同的，因为.4用二进制无法精确表示，这也就是为什么float类型数据和double类型数据都存储11.4，但是对比起来，他们不相等的原因。比如float a = 11.4; double b = 11.4; 要让他们正确对比，比如((float)b == a)，让double数据舍弃比float多的那些尾数。

对于double型数据，只要将阶码前面加0扩展到11位，尾数后面补充0至52位即可。

移位表示法：在数X上加一个偏移量，常用于表示浮点数中的阶码（注意阶码的偏移量和移位表示法定义有差别）。

定义：若X为纯整数，X[移] = 2^(n-1) + X，-2^(n-1) <= X < 2^(n-1)；若X为纯小数，X[移] = 1 - X，-1<= X < 1

#include <stdio.h>

#define print_float(a) print_bitxx(a, 4)
#define print_int(a) print_bitxx(a, 4)

#define print_double(a) print_bitxx(a, 8)

int is_little_endian()
{
    short int x = 0x0001;
    return ((char*)&x)[0];
}

void print_bitxx(const void *a, int bytes)
{
    const unsigned char *pos = (const unsigned char *)a;
    int i, j;
    int max_i = bytes - 1;
    if (is_little_endian()) {
        for (i=max_i; i>=0; i--) {
            for (j=7; j>=0; j--) {
                printf("%d", ((pos[i] & (1 << j)) ? 1 : 0));
                if (j == 4 || j == 0)
                    printf(" ");
            }
            printf(" ");
        }
    }
    printf("\n");
}

int main(int argc, char **argv)
{
    float a = 11.4;
    double b = 11.4;
    print_float(&a);
    print_double(&b);
    printf("%d\n", a == (float) b);
    printf("%d\n", (double)a == (double) b);
    return 0;
}

canlynet

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
float和double类型数据在内存中的存储方法

float和double类型数据在内存中的存储方法浮点数（单精度的float和双精度的double）在内存中以二进制的科学计数法表示，表达式为N = 2^E * F；其中E为阶码（采用移位存储），F为尾数。float和double都由符号位、阶码、尾数三部分组成，float存储时使用4个字节，double存储时使用8个字节。各部分占用位宽如下所示：符...
复制链接

扫一扫