c语言float准确描述,c语言中float是如何表示的

最新推荐文章于 2022-05-21 11:51:26 发布

王邺华

最新推荐文章于 2022-05-21 11:51:26 发布

阅读量507

点赞数

文章标签： c语言float准确描述

c 语言中 FLOAT 是如何表示的默认分类 2009-10-03 15:21 阅读 56 评论 0 在 C++里，实数(float)是用四个字节即三十二位二进制位来存储的。其中有 1 位符号位， 8 位指数位和 23 位有效数字位。实际上有效数字位是 24 位，因为第一位有效数字总是“1”，不必存储。有效数字位是一个二进制纯小数。 8 位指数位中第一位是符号位，这符号位和一般的符号位不同，它用“1” 代表正，用”0“ 代表负。整个实数的符号位用 “1”代表负，“0”代表正。在这存储实数的四个字节中，将最高地址字节的最高位编号为 31，最低地址字节的最低位编号为 0，则实数各个部分在这 32 个二进制位中的分布是这样的： 31 位是实数符号位，30 位是指数符号位，29---23 是指数位，22---0 位是有效数字位。注意第一位有效数字是不出现在内存中的，它总是“1” 。将一个实数转化为 C++实数存储格式的步骤为： (1)先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部分化为二进制的方法是不同的。 (2)将这个二进制格式实数的小数点左移或右移 n 位，直到小数点移动到第一个有效数字的右边。 (3)从小数点右边第一位开始数出二十三位数字放入第 22 到第 0 位。 (4)如果实数是正的，则在第 31 位放入“0”，否则放入“1”。 (5)如果 n 是左移得到的，说明指数是正的，第 30 位放入“1” 。如果 n 是右移得到的或 n=0，则第 30 位放入“0”。 (6)如果 n 是左移得到的，则将 n 减去一然后化为二进制，并在左边加“0”补足七位，放入第 29 到第 23 位。如果 n 是右移得到的或 n=0，则将 n 化为二进制后在左边加“0”补足七位，再各位求反，再放入第 29 到第 23 位。将一个计算机里存储的实数格式转化为通常的十进制的格式的方法如下： (1)将第 22 位到第 0 位的二进制数写出来，在最左边补一位“1”，得到二十四位有效数字。将小数点点在最左边那个“1” 的右边。 (2)取出第 29 到第 23 位所表示的值 n。当 30 位是 “0”时将 n 各位求反。当 30 位是 “1”时将 n 增 1。 (3)将小数点左移 n 位(当 30 位是“0”时)或右移 n 位(当 30 位是“1”时)，得到一个二进制表示的实数。 (4)将这个二进制实数化为十进制，并根据第 31 位是 “0”还是“1”加上正号或负号即可。特别地，实数 0 用 C++的 float 格式表示是 00000000000000000000000000000000。如果还不太明白，这里举几个例子。一。将 23.56 化为 C++的 float 格式。 (1)将 23.56 化为二进制后大约是“10111.1000111101011100001”。 **** 首先将一个小数如:235.725 的小数部分取出，即：0.725, 将其乘以进制数二进制就乘以 2 后得到 1。45 ，取其整数部分 1 为二进制小数的第一项(十分位) ，在将小数部分 0。 45 乘 2 得 0。9，取其整数部分为二进制小数的第二位(百分位)0，在将其小数部分 0。 9 乘 2，得 1。8，取其整数部分为二进制小数的第三位(千分位)1 ，取其小数部分 0。 8 再乘 2……以此类推，直到值为 0 或形成循环小数则停止。 (2)将小数点左移四位，得到“1.01111000111101011100001” 。 (3)这已经有了二十四位有效数字，将最左边一位“1”去掉，得到 “01111000111101011100001”。将它放入第 22 到第 0 位。 (4)因为 23.56 是正数，因此在第 31 位放入“0”。 (5)由于我们把小数点左移，因此在第 30 位放入“1”。 (6)因为我们是把小数点左移 4 位，因此将 4 减去 1 得 3，化为二进制，并补足七位得到 0000011，放入第 29 到第 23 位。完毕。如果把最左边定为第 31 位，最右边定为第 0 位，那么在 C++里，float 格式的 23.56 是这样表示的：01000001101111000111101011100001。相应地-23.56 就是这样表示的： 11000001101111000111101011100001。二。将实数 0.2356 化为 C++的 float 格式。 (1)将 0.2356 化为二进制后大约是 0.00111100010100000100100000。 (2)将小数点右移三位得到 1.11100010100000100100000。 (3)从小数点右边数出二十三位有效数字，即 11100010100000100100000 放入第 22 到第 0 位。 (4)由于 0.2356 是正的，所以在第 31 位放入“0”。 (5)由于我们把小数点右移了，所以在第 30 位放入“0”。 (6)因为小数点被右移了 3 位，所以将 3 化为二进制，在左边补“0” 补足七位，得到 0000011，各位取反，得到 1111100，放入第 29 到第 23 位。完毕。因此 0.2356 用 C++的 float 格式表示是：00111110011100010100000100100000。其中最左边一位是第 31 位，最右边一位是第 0 位。三。将实数 1.0 化为 C++的 float 格式。 (1)将 1.0 化为二进制后是 1.00000000000000000000000。 (2)这时不用移动小数点了，这就是我们在转化方法里说的 n=0 的情况。 (3)将小数点右边的二十三位有效数字 00000000000000000000000 放入第 22 到第 0 位。 (4)因为 1.0 是正的，所以在第 31 位里放入“0”。 (5)因为 n=0，所以在第 30 位里放入“0”。 (6)因为 n=0，所以将 0 补足七位得到 0000000，各位求反得到 1111111，放入第 29 到第 23 位。完毕。所以实数 1.0 用 C++的 float 格式表示是：00111111100000000000000000000000。其中最左边一位是第 31 位，最右边一位是第 0 位。 16 进制与 float 互相转换： unsigned char blist [4]; float fTemp = 0.01; unsigned char *bTemp = (unsigned char *) blist[0] = *bTemp; blist[1] = *(bTemp+1); blist[2] = *(bTemp+2); blist[3] = *(bTemp+3); printf(“%X%X%X%X\n“,blist[0],blist[1],blist[2],blist[3] ); blist[0]=0x0A; blist[1]=0xD7; blist[2]=0x23; blist[3]=0x3C; float number; number = *(float *)blist; printf(“%f“,number); 计算机如何处理浮点数 2007-04-30 14:53 ■ 现实生活中的小数数学中的小数，又称为实数。一般用十进制表示例如： 3.14159265 ■ 科学计算法数学中的科学计算法许多种表示法 3.14159265 = 0.314159265 × 101 ■ 计算机中浮点数的表示在计算机中的使用科学计数法是一种“规格化计数法”。 ● 规格化计数法用科学计数法表示实数时，如果最左边的第一个数字不是 0，则被称为“规格化计数法” 0.1 × 10-2 不是规格化计数法 1.0 × 10-3 则是规格化计数法 ● IEEE 754 标准 IEEE 754 标准成立于 1985 年，80 年代起所有的计算机系统均支持 IEEE 754 IEEE 754 对浮点数在计算机表示方法有三个主要的规定：对于单精度(single precision)：单精度浮点数位长：32 位 (1)IEEE 754 标准规定：第 1 位为符号位，1 代表负，0 代表正 (2)接下来用 8 位来表示指数部分。 (3)接下来的 23 位用来表示有效数位 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 - --------------- --------------------------------------------- S 指数(8 位) 有效数位 (23 位) ★ IEEE 754 考虑到利用现有的整数比较指充，对浮点数能进行快速的比较和排序，由于指数部分大小能快速反应出浮点数的大小，所以，在符号位接下来的 8 位用来表示指数，有效数位的大小反应出浮点数的精度。安排在最后的 23 位 ★ 对于规格化二进制浮点示法而言，有效数位的第 1 位必定是 1 而不是 0，因此，IEEE 754 规定：实际有效数位中的第 1 位被省去，因而，有效数位中默计含有 1 位。 ★ 移码：除了将指数安排在有效数位前面，还不足以快速比较两个浮点数的大小，例如： 1.0 × 2 -1 在计算机中表示为：0 11111111 00000000000000000000000 这个数相当于整数的 0x7F800000 1.0 × 2 1 在计算机中表示为：0 00000001 00000000000000000000000 这个数相当于整数的 0x00800000 如果用整数比较指令，比较两个数，1.0 × 2 -1 竟然比 1.0 × 2 1 还大！为了解决这个问题，IEEE 754 设计了一个方案：将指数加上一个常数 127 这个常数 127 被称为“移码”(biased notation) 我们再来看一看： 1.0 × 2 -1 将指数： -1 + 127 = 126 后,得出以下的二进制数： 0 01111110 00000000000000000000 也就是: 0x3F000000 1.0 × 2 1 将指数：1 + 127 = 128 后，得出以下的二进制数： 0 10000000 00000000000000000000 也就是：0x40000000 这样的话，就可以得出正确结果了。对于双精度(double precision)浮点数来说：位长 64 位 (1)IEEE 754 标准规定：第 1 位为符号位，1 代表负，0 代表正。 (2)接下来用 11 位来表示指数部分。 (3)接下来的 52 位用来表示有效数位。 ★ 双精度浮点数用 52 位来表示有效数位，11 位表示指数位，这样提高浮点数的精度，也还提高了浮点数的取值范围。 ★ 双精度的移码为 1023 例子： 1、将 -0.625 转化为计算机中的二进制数浮点数解：-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1 符号位：1 指数位：-1 + 127 = 126 有效数位：1.01(在机器中要相应去掉默认位) 所以，在机器表示的二进制序列为：1 01111110 0100000000000000000000 相当于整数：0xBF200000 2、将如下二进制序列用十进制浮点数表示。 11000000101000000000000000000000 解：符号位：1 是负数指数位；10000001 = 129，这个数要减去移码值，即：129 – 127 = 2 有效数位：01000000000000000000000 这个数要加上默认 1，即得：1.01 整个序列结果为：- 1.01 × 22 = -101 = -5.0

展开阅读全文

王邺华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c语言float准确描述,c语言中float是如何表示的

c 语言中 FLOAT 是如何表示的默认分类 2009-10-03 15:21 阅读 56 评论 0 在 C++里，实数(float)是用四个字节即三十二位二进制位来存储的。其中有 1 位符号位， 8 位指数位和 23 位有效数字位。实际上有效数字位是 24 位，因为第一位有效数字总是“1”，不必存储。有效数字位是一个二进制纯小数。 8 位指数位中第一位是符号位，这符号位和一般的符号...
复制链接

扫一扫

c语言float准确描述,c语言中float是如何表示的

“相关推荐”对你有帮助么？