float和double类型数据在内存中的存储方法
浮点数(单精度的float和双精度的double)在内存中以二进制的科学计数法表示,表达式为N = 2^E * F;其中E为阶码(采用移位存储),F为尾数。
float和double都由符号位、阶码、尾数三部分组成,float存储时使用4个字节,double存储时使用8个字节。各部分占用位宽如下所示:
符号位 阶码 尾数 长度
float 1 8 23 32
double 1 11 52 64
符号位:0代表正数,1代表负数。
阶码:用移位表示法存储科学计数法中的指数数据:float阶码占8位,取值范围-128~127,但并没有按照移位表示法+128,而是+127。同理double要+1023。
尾数:尾数部分:用二进制的科学计数法表示后,去掉小数点前面恒定的1,只保留小数点后面的二进制数据,存入尾数位置即可。
上述中阶码也是指数位,但阶码和尾数的描述显然是看不懂的。我们继续。
比如8.25,二进制科学计数法表示为:1.00001*2^3,具体转换方法:8的二进制1000;.25的二进制.01:即0*2^(-1) + 1*2^(-2)。写为:1000.01,小数点左移3位,即转换完毕。
符号位确定:8.25为正数,符号位为0。
阶码的表示:阶码位3+127=130;二进制10000010,已经是8位。
尾数的表示:去掉小数点前面的1,为00001,后面补充0至23位:000 0100 0000 0000 0000 0000
最终8.25在内存里存储的二进制为:0100 0001 0000 0100 0000 0000 0000 0000
又比如11.4,二进制科学计数法表示:float:1.01101100110011001100110 * 2^3,double:1.0110 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1101 * 2^3,所以他们的值其实是不同的,因为.4用二进制无法精确表示,这也就是为什么float类型数据和double类型数据都存储11.4,但是对比起来,他们不相等的原因。比如float a = 11.4; double b = 11.4; 要让他们正确对比,比如((float)b == a),让double数据舍弃比float多的那些尾数。
对于double型数据,只要将阶码前面加0扩展到11位,尾数后面补充0至52位即可。
移位表示法:在数X上加一个偏移量,常用于表示浮点数中的阶码(注意阶码的偏移量和移位表示法定义有差别)。
定义:若X为纯整数,X[移] = 2^(n-1) + X,-2^(n-1) <= X < 2^(n-1);若X为纯小数,X[移] = 1 - X,-1<= X < 1
#include <stdio.h> #define print_float(a) print_bitxx(a, 4) #define print_int(a) print_bitxx(a, 4) #define print_double(a) print_bitxx(a, 8) int is_little_endian() { short int x = 0x0001; return ((char*)&x)[0]; } void print_bitxx(const void *a, int bytes) { const unsigned char *pos = (const unsigned char *)a; int i, j; int max_i = bytes - 1; if (is_little_endian()) { for (i=max_i; i>=0; i--) { for (j=7; j>=0; j--) { printf("%d", ((pos[i] & (1 << j)) ? 1 : 0)); if (j == 4 || j == 0) printf(" "); } printf(" "); } } printf("\n"); } int main(int argc, char **argv) { float a = 11.4; double b = 11.4; print_float(&a); print_double(&b); printf("%d\n", a == (float) b); printf("%d\n", (double)a == (double) b); return 0; }