java float 运算_java基础之float、double底层运算

目前java遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。

我们来看一段java代码:public class FloatToBinary {

public static void main(String[] args) {

float f1=8.5f;

System.out.println("f1底层数据(十进制):"+Float.floatToIntBits(f1));

int int1=Float.floatToIntBits(f1);

System.out.println("f1底层数据(二进制):"+Integer.toBinaryString(int1));

}

}

打印结果:

f1底层数据(十进制):1091043328

f1底层数据(二进制):1000001000010000000000000000000

我们知道float与double分别在内存中占有32位和64位,见下:

符号位阶码尾数长度

float182332

double1115264

IEEE浮点数表示标准:

V = (-1)s×M×2E

E = e-Bias

其中Bias表示偏移量,float的偏移量为Bias=2k-1-1=28-1-1=127,double的偏移量为Bias=210-1=1023

浮点数在计算机中存储时,按照二进制科学计数法拆分为三个部分:符号位、指数部分和尾数部分。如下图所示:

4da846f8d3b35ed0ed3ebe03ce523325.png

存储时,按照最高位存储符号位,次高位存储指数部分,低位存储尾数部分的次序存储。存储时的排列示意图如下:

4d38394295400f11515b310bf52b2f5d.pngspacer.gif

float类型的内存分布如下图所示:

14f80fafb4fcbdf46f5c22136875138b.png

double类型的内存分布如下图所示:

a02a556949f3a85137b33a7938203255.png

编码规则

在实际存储时要对使用二进制科学计数法表示的浮点数值的符号位、指数部分和尾数部分进行编码处理。一般需要分为规约形式的浮点数、非规约形式的浮点数和特殊值三种类型进行编码。其编码前后处理如下图所示:

cd57b71ba0ccb2496727bb862bbc7785.png

spacer.gif

注:非规约浮点数主要用于扩大0值附近的浮点数表示范围,非规约浮点数的绝对值均小于规约浮点数的绝对值,即前者在实数轴上更靠近0,这样可以提高0附近的计算精度;一般C、C++中float和double的取值范围都是按照规约浮点数定义的,MSDN文档和相关教材也是这么说的,但部分编译器按照ANSI/IEEE Std 754-1985标准实现了非规约浮点数,本文末尾留有程序示例说明。

符号位:0表示正数,1表示负数;

指数部分: float的偏移量为2^8 - 1,double的偏移量为2^11 - 1;

尾数部分:实际尾数部分中的小数点后的数值,规约浮点数使用标准的二进制科学计数法表示,其尾数范围在 [1,2),非规约浮点数的尾数部分范围在(0,1)。

上面的理论在哪里都能看到,这只是IEEE754的定义而已,我们来实际用一下它是怎么表达小数的:

①求单精度8.5f 的二进制 过程。

首先8.5是正数所以符号位为0;

然后化为二进制,1*2^3+0*2^2+0*2^1+0*2^0 (整数部分)  . (小数点)   1*2^-1小数部分简化为1000.1

要把二进制数变成(1.f)*2^(exponent)的形式,其中exponent是指数即1.0001*2^3.

然后我们得到阶码为e=3+127=130 即阶码表示二进制为10000010.

余下小数0001,我们补齐至23位即00010000000000000000000。

这样符合结构 符号位   0   阶码 10000010 尾数00010000000000000000000

然后我们来看一下8.5存储在内存中01000001000010000000000000000000

因为java.lang.Integer.toBinaryString() 方法返回一个字符串表示的整数参数,以2为底的无符号整数,所以在开始的程序打印结果我们添加一个0,与我们算出的结果就相同了。

网上有很多关于float、double的转换解说,这里只是我涉及到了这块,然后自己去学习了一下,其实刚开始我看理论知识比较晕,后来看到别人以列子详细解说,然后再回头看理论,就发现也没那么难了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java中,floatdouble都是用二进制浮点数表示的,它们的精度是有限的。因为二进制浮点数无法精确表示某些十进制数,如0.1,所以在进行精确计算时需要特别注意。 在进行浮点数计算时,可以使用BigDecimal类来实现精确计算。BigDecimal类可以表示任意精度的十进制数,而且支持加、减、乘、除等基本的数学运算。 下面是一个使用BigDecimal类进行浮点数计算的例子: ``` import java.math.BigDecimal; public class FloatDoublePrecision { public static void main(String[] args) { float f1 = 0.1f; float f2 = 0.2f; double d1 = 0.1; double d2 = 0.2; BigDecimal b1 = new BigDecimal(Float.toString(f1)); BigDecimal b2 = new BigDecimal(Float.toString(f2)); BigDecimal b3 = new BigDecimal(Double.toString(d1)); BigDecimal b4 = new BigDecimal(Double.toString(d2)); BigDecimal result1 = b1.add(b2); BigDecimal result2 = b3.add(b4); System.out.println("Float计算结果:" + result1); System.out.println("Double计算结果:" + result2); } } ``` 输出结果如下: ``` Float计算结果:0.300000011920928955078125 Double计算结果:0.3000000000000000444089209850062616169452667236328125 ``` 可以看到,使用floatdouble进行计算得到的结果都存在精度问题。而使用BigDecimal类进行计算可以得到精确的结果。 需要注意的是,使用BigDecimal类进行计算时需要使用字符串形式的构造方法,而不能直接使用浮点数进行构造,否则仍然会存在精度问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值