理解浮点数的构成

理解浮点数的构成个人觉得对于新手是一个比较困难的事,我就想了好久,看了好几篇参考资料,才大概弄清。。。

下面就说一下自己的理解吧~

关于单精度浮点型的二进制构造:

一般6-8位有效数字(假设float占4个字节,那就是一共32位,其中一个符号位,8个指数位,23个尾数。所以布局如下:

符号位[  ]  +  指数位[  ] [  ] [  ] [  ] [  ] [  ] [  ] [  ]   +   尾数[  ]*23

(有效数字大家应该知道吧,回想一下科学计数法)


上面给出了浮点数的表示方法,6-8位有效数字就是10^6到10^8个数(一般超过7位就四舍五入了,后面的就都不精确了),这个与编译器有关。

其实,也就是说每个float类型里面有2^23=83886087个二进制位对应表示2^23个数,10^6<2^23<10^8,所以我们一般可以精确的表示6位有效数字,但是无法表示8位有效数字。浮点数有正负所以需要一个符号位来表示,还有8个指数位来表示指数(指数也是要存储的好吧)由于有正负也就是-127~128。

说道这里,大家感觉可能是懂了,不过很有可能还是没懂。


我给出问题,float能表示的大概的范围-3.4E38~3.4E38,这个数又是怎么来的?


我们知道计算机是以二进制来存取数据的,二进制也有其对应的浮点数形式。比如,1001.101.转换成10进制就是9.625.而对于IEEE标准要求浮点数必须是规范的,小数点左侧必须为1.这样,就变为1.001101*2^3(这里要注意,没错,二进制的科学技术法就是2的n次幂)。所以,对应的32为表示如下。

符号位0|指数幂 10000010|尾数 00110100000000000000000

这里我们看到尾数第一个1省略了(正常应该是100110100000000000000000),因为IEEE规定了小数点第一位是1,所以可以将这个符号位添加到后面来保存更多的数据。

指数位的规则比较复杂,首先,1.001101*2^3,在二进制中不会出现2或者是3的,所以指数为3必须要转换成2进制的形式,3的二进制是00000011。其次,任何实际的指数不能直接存储在指数位里,需要加上一个偏移值127,加完偏移值的这个数叫做阶码,然后这个阶码会存储在表示指数的8位二进制中。这样,3+127 = 130,转换成二进制就是10000010。

那么为什么要加一个偏移值呢?这个偏移值为什么是127?

这个有时间再进一步讨论~


比如,当实际的指数值为0的时候,在2进制的指数位表示为127(实际值=e—127).所以,当实际值为3的时候,e=130(也就是指数位为130,10000010)

最后再举一个例子,

-6.5

符号位1|指数幂 10000001|尾数 10101000000000000000000


现在应该知道那个范围是怎么算出来的吧,


截图就是2^128的结果(浮点数的大致范围由指数位来决定,而尾数决定的是精确程度)。

下面是一个C++中有关基本数据类型的表格:

类型

含义

最小尺寸

bool

布尔类型

未定义

char

字符

8位

wchar_t

宽字符

16位

char16_t

Unicode字符

16位

char32_t

Unicode字符

32位

short

短整型

16位

int

整型

16位

long

长整形

32位

long long(C++ 11)

长整形

64位

float

单精度浮点型

6-8位有效数字(假设float占4个字节,一个符号位,8个指数位,23个尾数。

2^23=83886087位,2^8<=>(-128~128)\

Float表示-2^128~2^128

内存中

符号位[]+(只存放指数)指数位[][][][][][][][]+尾数[]*23)

double

双精度浮点型

10位有效数字

long double

扩展精度浮点型

10位有效数字



大家也可以参考这篇文章,写的很好

http://www.cnblogs.com/findumars/p/5452526.html



  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
从程序员的视角,看计算机系统! 本书适用于那些想要写出更快、更可靠程序的程序员。通过掌握程序是如何映射到系统上,以及程序是如何执行的,读者能够更好的理解程序的行为为什么是这样的,以及效率低下是如何造成的。粗略来看,计算机系统包括处理器和存储器硬件、编译器、操作系统和网络互连环境。而通过程序员的视角,读者可以清晰地明白学习计算机系统的内部工作原理会对他们今后作为计算机科学研究者和工程师的工作有进一步的帮助。它还有助于为进一步学习计算机体系结构、操作系统、编译器和网络互连做好准备。 本书的主要论题包括:数据表示、C程序的机器级表示、处理器结构,程序优化、存储器层次结构、链接、异常控制流、虚拟存储器和存储器管理、系统级I/O、网络编程和并发编程。书中所覆盖的内容主要是这些方面是如何影响应用和系统程序员的。例如,在讲述数据表示时,本书说明了用来表示数字的表示方法是有限的,它能够近似地表示整数和实数,但是这种表示方法是有限制的,程序员必须了解。在讲述高速缓存时,本书讨论了矩阵代码中的循环变量的顺序是如何影响程序的性能的。在讨论网络互连时,本书描述了并发服务器如何能有效地处理来自多个客户端的请求。 本书基于Intel兼容(IA32)机器,在Unix或者相关的操作系统(例如,Linux)上执行C程序。虽然书中包括了一些帮助读者将Java转化成C的提示,但是还是要求读者对C或者C++有一定的了解。 您可以通过本书的Web网站www.csapp.cs.cmu.edu获得完整的资料,包括实验和作业,授课笔记和代码示例。 本书英文版久负盛名,被众多专业人士称为“最伟大的计算机教材”之一,著名的美国卡内基梅隆大学计算机科学系一直将本书作为教材使用,程序员眼中的透彻讲述计算机系统的扛鼎之作。作者Randal E. Bryant是卡耐基梅隆大学的计算机科学系主任,ACM和IEEE双院士(Fellow),其研究成果多次获得ACM和IEEE颁发的大奖。   本书共分十三章,分别介绍了信息的表示和处理、程序的机器级表示、处理器体系结构、存储器层次结构、静态和动态链接、虚拟存储器、系统级I/O、网络编程和并发编程等精彩内容。其目的是解释计算机系统的所有本质概念,并向读者展示这些概念是如何实际地影响应用程序的正确性、性能和实用性。与其他主要针对系统构造人员的系统类书籍不同,这本书是写给程序员的,是从程序员的角度来描述的。本书为软件和硬件之间搭起了一个桥梁,它给出了一种帮助读者分别从硬件和软件的角度去理解一个程序及其行为的途径,这也填补了国内计算机系统教学中的一个空白。本书的最大优点是帮助读者理解概念,让读者很清楚地在脑海中构造一个层次型的计算机系统,从最低层数据在内存中的表示(如我们一直陌生的浮点数表示),到流水线指令的构成,到虚拟存储器,到编译系统,到动态加载库,到最后的用户应用。   本书提供了大量的例子和练习及部分答案。尤其值得一提的是,对于每一个基本概念都有相应的笔头或程序试验,加深读者的理解

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值