c语言中FLOAT 是如何表示的

最新推荐文章于 2022-11-01 20:41:12 发布

hope11011

最新推荐文章于 2022-11-01 20:41:12 发布

阅读量831

点赞数

分类专栏： c语言基础

c语言基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在C++里，实数（float）是用四个字节即三十二位二进制位来存储的。其中有1位符号位，8位指数位和23位有效数字位。实际上有效数字位是24位，因为第一位有效数字总是“1”，不必存储。有效数字位是一个二进制纯小数。8位指数位中第一位是符号位，这符号位和一般的符号位不同，它用“1”代表正，用”0“代表负。整个实数的符号位用“1”代表负，“0”代表正。
      在这存储实数的四个字节中，将最高地址字节的最高位编号为31，最低地址字节的最低位编号为0，则实数各个部分在这32个二进制位中的分布是这样的：31位是实数符号位，30位是指数符号位，29---23是指数位，22---0位是有效数字位。注意第一位有效数字是不出现在内存中的，它总是“1”。

    将一个实数转化为C++实数存储格式的步骤为：
    （1）先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部分化为二进制的方法是不同的。
    （2）将这个二进制格式实数的小数点左移或右移n位，直到小数点移动到第一个有效数字的右边。
    （3）从小数点右边第一位开始数出二十三位数字放入第22到第0位。
    （4）如果实数是正的，则在第31位放入“0”，否则放入“1”。
    （5）如果n 是左移得到的，说明指数是正的，第30位放入“1”。如果n是右移得到的或n=0，则第30位放入“0”。
    （6）如果n是左移得到的，则将n减去一然后化为二进制，并在左边加“0”补足七位，放入第29到第23位。如果n是右移得到的或n=0，则将n化为二进制后在左边加“0”补足七位，再各位求反，再放入第29到第23位。

    将一个计算机里存储的实数格式转化为通常的十进制的格式的方法如下：
    （1）将第22位到第0位的二进制数写出来，在最左边补一位“1”，得到二十四位有效数字。将小数点点在最左边那个“1”的右边。
    （2）取出第29到第23位所表示的值n。当30位是“0”时将n各位求反。当30位是“1”时将n增1。
    （3）将小数点左移n位（当30位是“0”时）或右移n位（当30位是“1”时），得到一个二进制表示的实数。
    （4）将这个二进制实数化为十进制，并根据第31位是“0”还是“1”加上正号或负号即可。

    特别地，实数0用C++的float格式表示是00000000000000000000000000000000。

如果还不太明白，这里举几个例子。
    一。将23.56化为C++的float格式。
    （1）将23.56化为二进制后大约是“10111.1000111101011100001”。

**** 首先将一个小数如:235.725的小数部分取出，即：0.725,将其乘以进制数二进制就乘以2后得到1。45，取其整数部分1为二进制小数的第一项（十分位），在将小数部分0。45乘2得0。9，取其整数部分为二进制小数的第二位（百分位）0，在将其小数部分0。9乘2，得1。8，取其整数部分为二进制小数的第三位（千分位）1，取其小数部分0。8再乘2……以此类推，直到值为0或形成循环小数则停止。

    （2）将小数点左移四位，得到“1.01111000111101011100001”。
    （3）这已经有了二十四位有效数字，将最左边一位“1”去掉，得到“01111000111101011100001”。将它放入第22到第0位。
    （4）因为23.56是正数，因此在第31位放入“0”。
    （5）由于我们把小数点左移，因此在第30位放入“1”。
    （6）因为我们是把小数点左移4位，因此将4减去1得3，化为二进制，并补足七位得到0000011，放入第29到第23位。
    完毕。
    如果把最左边定为第31位，最右边定为第0位，那么在C++里，float格式的23.56是这样表示的：01000001101111000111101011100001。相应地-23.56就是这样表示的：11000001101111000111101011100001。

    二。将实数0.2356化为C++的float格式。
    （1）将0.2356化为二进制后大约是0.00111100010100000100100000。
    （2）将小数点右移三位得到1.11100010100000100100000。
    （3）从小数点右边数出二十三位有效数字，即11100010100000100100000放入第22到第0位。
    （4）由于0.2356是正的，所以在第31位放入“0”。
    （5）由于我们把小数点右移了，所以在第30位放入“0”。
    （6）因为小数点被右移了3位，所以将3化为二进制，在左边补“0”补足七位，得到0000011，各位取反，得到1111100，放入第29到第23位。
    完毕。因此0.2356用C++的float格式表示是：00111110011100010100000100100000。其中最左边一位是第31位，最右边一位是第0位。

    三。将实数1.0化为C++的float格式。
    （1）将1.0化为二进制后是1.00000000000000000000000。
    （2）这时不用移动小数点了，这就是我们在转化方法里说的n=0的情况。
    （3）将小数点右边的二十三位有效数字00000000000000000000000放入第22到第0位。
    （4）因为1.0是正的，所以在第31位里放入“0”。
    （5）因为n=0，所以在第30位里放入“0”。
    （6）因为n=0，所以将0补足七位得到0000000，各位求反得到1111111，放入第29到第23位。
    完毕。所以实数1.0用C++的float格式表示是：00111111100000000000000000000000。其中最左边一位是第31位，最右边一位是第0位。

16进制与float互相转换：

unsigned char   blist [4];
float   fTemp   =   0.01;
unsigned char   *bTemp   =   (unsigned char   *)&fTemp;

blist[0]   =   *bTemp;
blist[1]   =   *(bTemp+1);
blist[2]   =   *(bTemp+2);
blist[3]   =   *(bTemp+3);

printf("%X%X%X%X\n",blist[0],blist[1],blist[2],blist[3] );
blist[0]=0x0A;
blist[1]=0xD7;
blist[2]=0x23;
blist[3]=0x3C;

float number;
number = *(float *)blist;

printf("%f",number);

计算机如何处理浮点数

2007-04-30 14:53

■ 现实生活中的小数

数学中的小数，又称为实数。一般用十进制表示
例如： 3.14159265

■ 科学计算法
数学中的科学计算法许多种表示法
3.14159265 = 0.314159265 × 101

■ 计算机中浮点数的表示

在计算机中的使用科学计数法是一种“规格化计数法”。

● 规格化计数法

用科学计数法表示实数时，如果最左边的第一个数字不是0，则被称为“规格化计数法”

0.1 × 10-2 不是规格化计数法

1.0 × 10-3 则是规格化计数法

● IEEE 754 标准

IEEE 754 标准成立于1985年，80年代起所有的计算机系统均支持IEEE 754

IEEE 754 对浮点数在计算机表示方法有三个主要的规定：

对于单精度（single precision）：单精度浮点数位长：32位

（1）IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正

（2）接下来用8位来表示指数部分。

（3）接下来的23位用来表示有效数位

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

- --------------- ---------------------------------------------

S 指数（8位）有效数位（23 位）

★ IEEE 754 考虑到利用现有的整数比较指充，对浮点数能进行快速的比较和排序，由于指数部分大小能快速反应出浮点数的大小，所以，在符号位接下来的8位用来表示指数，有效数位的大小反应出浮点数的精度。安排在最后的23位

★ 对于规格化二进制浮点示法而言，有效数位的第1位必定是1而不是0，因此，IEEE 754 规定：实际有效数位中的第1位被省去，因而，有效数位中默计含有1位。

★ 移码：除了将指数安排在有效数位前面，还不足以快速比较两个浮点数的大小，例如：

1.0 × 2 -1 在计算机中表示为：0 11111111 00000000000000000000000

这个数相当于整数的 0x7F800000

1.0 × 2 1 在计算机中表示为：0 00000001 00000000000000000000000

这个数相当于整数的 0x00800000

如果用整数比较指令，比较两个数，1.0 × 2 -1 竟然比 1.0 × 2 1 还大！

为了解决这个问题，IEEE 754 设计了一个方案：将指数加上一个常数 127

这个常数 127 被称为“移码”（biased notation）

我们再来看一看：

1.0 × 2 -1 将指数： -1 + 127 = 126 后,得出以下的二进制数：

0 01111110 00000000000000000000 也就是: 0x3F000000

1.0 × 2 1 将指数：1 + 127 = 128 后，得出以下的二进制数：

0 10000000 00000000000000000000 也就是：0x40000000

这样的话，就可以得出正确结果了。

对于双精度（double precision）浮点数来说：位长64 位

（1）IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正。

（2）接下来用11位来表示指数部分。

（3）接下来的52位用来表示有效数位。

★ 双精度浮点数用52位来表示有效数位，11位表示指数位，这样提高浮点数的精度，也还提高了浮点数的取值范围。

★ 双精度的移码为 1023

例子：

1、将 -0.625 转化为计算机中的二进制数浮点数

解：-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1

符号位：1

指数位：-1 + 127 = 126

有效数位：1.01（在机器中要相应去掉默认位）

所以，在机器表示的二进制序列为：1 01111110 0100000000000000000000

相当于整数：0xBF200000

2、将如下二进制序列用十进制浮点数表示。

11000000101000000000000000000000

解：

符号位：1 是负数

指数位；10000001 = 129，这个数要减去移码值，即：129 – 127 = 2

有效数位：01000000000000000000000 这个数要加上默认1，即得：1.01

整个序列结果为：- 1.01 × 22 = -101 = -5.0

hope11011

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c语言中FLOAT 是如何表示的

在C++里，实数（float）是用四个字节即三十二位二进制位来存储的。其中有1位符号位，8位指数位和23位有效数字位。实际上有效数字位是24位，因为第一位有效数字总是“1”，不必存储。有效数字位是一个二进制纯小数。8位指数位中第一位是符号位，这符号位和一般的符号位不同，它用“1”代表正，用”0“代表负。整个实数的符号位用“1”代表负，“0”代表正。在这存储实数的四个字节中，将最
复制链接

扫一扫

专栏目录