首先介绍一下十进制的整数和小数如何用二进制表示
十进制的整数部分转换为二进制采用的方法为:除2取余,逆序排列。
十进制的小数部分转换为二进制采用的方法为:乘2取整,顺序排列。
二进制小数部分转换为十进制的方法为(非科学计数法): 第n比特位的值乘以然后求和。eg:11.1101=1*+1*+1*+1*+0*+1*=3.825
n进制的科学计数法:a* 。其中 0<a<n,a、b都是n进制数,类比于十进制,b表示n进制的指数(即小数点移动的位数)。eg:二进制10000=1*,指数100等于十进制的4,即小数点向左移动了4位。
根据国际标准IEEE 754,任意一个二进制浮点数可以表示为 。其中s为符号位,取值为0或者1。1≤M<2为二进制科学计数法的有效数字(可由十进制类比理解),IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面小数位f部分。等到读取的时候,再把第一位的1加上去。e表示指数位,在计算机中采用移位存储方式,即把原指数值加上一个特定数字。使某一数据类型能够表示的数值范围发生变动。e为一个无符号整数(unsigned int),这意味着,如果e为8位,它的取值范围为0~255;如果e为11位,它的取值范围为0~2047。但是,科学计数法中的e是可以出现负数的,所以IEEE 754规定,e的真实值等于指数值加上一个中间数,对于8位的e,这个中间数是127,指数取整范围变成了-127~128;对于11位的e,这个中间数是1023,指数取值范围变成了-1023~1024。而我们通过计算机内存读取浮点数指数值的时候,需要减去127/1023。
单精度
float 类型变量在内存中的结构如下图,第 1 位是符号位(sign),接下来 8 位是指数位(exponent),剩下 23 位是小数位(fraction)。由于,最大可以表示十进制的7位小数,但是不能表示所有的7位小数,所以可以保证的精度为6位。
s | e | e | e | e | e | e | e | e | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f |
符号位:0代表正数,1代表负数。
小数位:将原二进制数小数点左/右移至最高位1的后方,去掉最高位1,剩余部分做为小数位部分。
指数位:指数值(即小数位移动量)+127即为指数位。
双精度
double 类型变量在内存中的结构如下图,第 1 位是符号位(sign),接下来 11 位是指数位(exponent),剩下 52 位是小数位(fraction)。由于,最大可以表示十进制的16位小数,但是不能表示所有的16位小数,所以可以保证的精度为15位。
s | e | e | e | e | e | e | ... | e | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | f | ... | f |
符号位:0代表正数,1代表负数。
小数位:将原二进制数小数点左/右移至最高位1的后方,去掉最高位1,剩余部分做为小数位部分。
指数位:指数值(即小数位移动量)+1023即为指数位。