浮点数的规格化

教材中的浮点数规格化表达式:

69048fac06884cc089166e734748c32c.jpg

 其中E带符号位,M的绝对值在1/2到1之间

IEEE754中的浮点数规格化:

775631d87fee48bb988fa75cb0e5aed5.jpg

 解释:

1、指数的真实值为E-偏移量,

单精度浮点数(32位,E长8位)中E的偏移量为127。

双精度浮点数(64位,E长11位)中E的偏移量为1023。

在计算真值时首先根据机器数写出E的值,再减去偏移量得真值。

偏移量的目的:将E转换成正数(无符号整数),不需要看符号位。具体在工程里有什么好处还看不出来。

2、教材中对尾数M的规定是 绝对值<1

IEEE754中M仅表示浮点数的小数部分,浮点数的整数部分为1。也就是说 IEEE754的规格化浮点数中尾数的标准形式为1.******(原码表示),而不是0.1*****(正数原码)或者1.1*******(负数原码)

IEEE中尾数M恒为正数,教材中可正可负(看符号位)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
在C#中,浮点数(如`double`或`float`)有时需要规范化,这是为了提高它们的表示效率和精度。浮点数通常用阶码(exponent)和尾数(mantissa)来存储,其中尾数可能包含前导零。规范化过程涉及以下步骤: 1. **舍入到最近的规格化形式**: - 如果尾数(小数部分加上1)的第一个非零数字在小数点之前,那么将尾数向左移动一位,增加阶码。 - 如果尾数的第一个非零数字在小数点之后,那么不需要移动,因为这已经是规格化形式。 - 如果移动后尾数变为0(即变成了纯小数0.0),那么这表明原数太小,可能会丢失精度,所以通常会设置为最小规格化值(例如`double.MinValue`或`float.Epsilon`)。 2. **处理溢出和下溢**: - 如果移动后阶码超过最大值,表示结果溢出,可能会导致精度丢失或异常。 - 如果阶码减到最小值且尾数为0,表示结果小于最小可表示值,这可能导致下溢。 3. **保留精度**: - 根据浮点数类型,规范化后的结果可能丢失一些小数位,但这通常不会影响数学运算的确性,因为大部分操作是基于近似值进行的。 以下是一个简单的C#代码片段来演示如何规范化一个double类型的浮点数: ```csharp public static double NormalizeDouble(double value) { // 将尾数乘以10以避免精度损失 double adjustedValue = value * 10.0; int exponent = BitConverter.DoubleToInt32LittleEndian(BitConverter.GetBytes(adjustedValue)); // 规范化尾数 while ((exponent & 0x7ff) == 0x7ff && adjustedValue != 0) // 阶码全为1, 并且不为0 { adjustedValue /= 10.0; // 移动小数点 exponent -= 128; // 减少阶码 } // 把结果放回确的格式 byte[] bytes = BitConverter.GetBytes(BitConverter.ToInt64LittleEndian(BitConverter.GetBytes(exponent << 52 | BitConverter.IntToUInt32LittleEndian(BitConverter.GetBytes(adjustedValue))))); return BitConverter.ToDouble(bytes, 0); } ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值