计算机中的浮点数表示

奕羿

已于 2024-08-23 09:23:05 修改

阅读量811

点赞数 13

文章标签：笔记

于 2024-08-22 20:58:03 首次发布

本文链接：https://blog.csdn.net/cr18175627706/article/details/141437860

版权

在计算机科学中，浮点数是一种用于表示实数的格式。与整数不同，浮点数可以表示非常大范围的数值，并且能够包含小数部分。然而，由于计算机的存储空间有限，浮点数的表示方法在设计上需要平衡精度和范围。本文将详细介绍浮点数的基本结构，以及在浮点数运算过程中阶码和尾数的变化。

在这里插入图片描述

浮点数主要由三个部分构成：

符号位（Sign Bit）：用于表示数值的正负。符号位为0表示正数，为1表示负数。
尾数（Mantissa or Significant）：也称为有效数，它表示浮点数的精度部分。在二进制浮点数表示中，尾数通常为一个二进制小数，代表了浮点数的有效位。
阶码（Exponent）：阶码用于表示浮点数的尺度，即相对于基准数（通常是2）的指数部分。阶码的大小决定了浮点数的数量级。

在计算机中，浮点数的表示通常遵循IEEE 754标准，根据存储位数的不同，常见的有单精度浮点数（32位）和双精度浮点数（64位）。其中，单精度浮点数由1位符号位、8位阶码和23位尾数组成，而双精度浮点数由1位符号位、11位阶码和52位尾数组成。

以十进制数-12.375为例，其在计算机中的表示过程如下：

转换为二进制：将十进制数-12.375转换为二进制，得到-1100.011。
标准化尾数：将二进制数表示为标准化形式，即-1.100011 × 2^3。
计算尾数和阶码：尾数部分为100011（隐含1），实际阶码为3。按照IEEE 754标准，单精度浮点数的偏置值为127，因此存储的阶码为130，即二进制的10000010。
最终表示：符号位为1，阶码为10000010，尾数为10001100000000000000000。因此，-12.375在32位单精度浮点数中的表示为：

[ 1 , 10000010 , 10001100000000000000000 ]

浮点数的加法运算是浮点数操作中的基础，涉及到尾数和阶码的变化。计算机进行浮点数相加时，主要包括以下步骤：

阶码对齐：在对两个浮点数进行相加之前，首先需要对齐它们的阶码。找出较大阶码，并将较小阶码的浮点数尾数右移，使得两者的阶码相等。例如，两个浮点数分别为A = 1.1101 × 2^5和B = 1.0010 × 2^3，对齐后B的尾数右移2位变为0.01001 × 2^5。
尾数相加：阶码对齐后，直接对齐后的尾数部分进行相加。相加的结果可能产生进位，导致尾数需要进一步处理。以A和对齐后的B为例，尾数相加结果为1.1101 + 0.01001 = 10.00011。
归一化处理：如果尾数相加后超出标准格式，需要进行归一化处理。尾数进位导致结果为10.00011 × 2^5，需要将尾数右移一位并增加阶码，得到1.000011 × 2^6。
舍入处理：尾数可能超出表示范围，因此需要进行舍入处理。根据具体的舍入规则，最终可能得到一个舍入后的尾数。
结果表示：最终结果以符号位、阶码和尾数的浮点数格式表示。