在程序中,小数一般都采用的是32位浮点型(float)的二进制存储,如果要使用小数计算,对于加、减、乘、除运算的数字和结果必须是实数上精确表示的。由于浮点数的特殊性,无法采用整数的补码存储方式,浮点数需要有特定的存储方式。IEEE754标准规定了浮点数在计算机中的存储方式以及算术标准等。一个浮点数可以分为3部分存储:
按照这种形式存储的数称为规约浮点数,一般C中的float、double都是采取的这种形式。通过这种存储方式,32位浮点数表示范围介于-1.18X10+38和3.40X10+38之间,虽然浮点数表示的范围很广,但存储的尾数只有23位,因此它并不能精确表示其范围内的所有数字。
比如,我们想计算1e+12,但这个数在浮点数中是不能精确表示的,所以对于精确计算,输入的数值为999999995904。
浮点数78.375的表示
浮点数精度
浮点数的精度指的是小数点后的有效数字位数,是由尾数的位数来决定的,对于单精度(float),它的尾数为23位,而2^23=8388608,共7位,也就是说最多能有7位有效数字,但至少能保证6位,因此32位浮点数的小数点后有效位为6~7位。C语言中浮点型一般分为float单精度型、double双精度型、long double长精度型,单精度浮点型小数点后面有效数字为6~7位和双精度浮点型小数点后面有效数字为15~16位。单精度为32位,双精度为64位,8位为一个字节。
在C语言标准库头文件float.h定义了浮点数小数点后的有效位数 :
//float.h头文件的部分代码
#define DBL_DIG 15 //双精度小数点后15位
#define FLT_DIG 6 //单精度小数点后6位
#define LDBL_DIG 19 //长双精度小数点19
可以用一段C程序来验证32位浮点数的存储值和精度:
#include <stdio.h>
int main(void)
{
float k1=1e12;
float k2=1;
float f=4230.0;
float y1=k1/f/f;
float y2=k2/f/f;
printf(“k1= %f\n”,k1);
printf(“y1= %f\n”,y1);
printf(“y2= %f\n”,y2);
return 0;
}
程序运行结果为:
k1= 999999995904.000000
y1= 55888.089844
y2= 0.000000