从零学习单、双精度浮点数

厚德云

已于 2024-05-15 16:13:59 修改

阅读量1.9k

点赞数 17

文章标签：学习架构算法 gpu算力

于 2024-03-18 16:05:23 首次发布

本文链接：https://blog.csdn.net/holdcloud/article/details/136812356

版权

深度了解单、双精度浮点数

今天我们来讲解一下什么是单精度浮点数。浮点数是什么意思？什么是单精度浮点数？什么是双精度浮点数？他们之间的区别又是什么？我们带着这些问题往下看。

浮点数是什么

浮点数，是属于有理数中某特定子集的数的数字表示，在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数（即尾数）乘以某个基数（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学计数法。

通俗点来说，浮点数是一种用于表示实数的计算机数字数据类型。它使用小数点来表示数字，可以表示非常大或非常小的数值，并且可以包含小数部分。浮点数通常使用二进制表示，并且可以使用科学计数法表示。在科学计数法中，浮点数被表示为一个基数（通常为10）和一个指数。指数表示小数点的位置，基数表示小数点左侧的数字。例如，3.14可以表示为 3.14 x 10^0，0.00314可以表示为 3.14 x 10^-3。

单精度浮点数是什么？

单精度浮点数格式是一种计算机数据格式，在计算机存储器中占用4个字节（32 bits），利用“浮点”（浮动小数点）的方法，可以表示一个范围很大的数值。

在IEEE 754-2008的定义中，32-bit base 2格式被正式称为binary32格式。这种格式在IEEE 754-1985被定义为single，即单精度。需要注意的是，在更早的一些计算机系统中，也存在着其他4字节的浮点数格式。

单精度浮点数的长度字节，其中最高位为符号位S，中间8位表示阶码e，低23位表示尾数f。

单精度浮点数表示法规定：把一个数转换成浮点数储存时，整数部分保持位“1”，但这个“1”不存储，是隐含的。因此把一个单精度浮点数转换成真值时，需要在尾数的整数部分加一个“1”。

例如：13=1101B，将其规格化成浮点数后的结果位1.101×211，其整数部分的“1”不存储。尾数中只存储存小数部分的“101”。阶码部分为纯整数，并用移码表示。在使用单精度浮点数格式表示时，阶码的偏移值为127（即1111111B）。所以采用单精度浮点数表示时，数的真值为（-1）S2e-127×（1.f）。

与其他数值类型相比，单精度浮点数在表示范围和精度上做了一定的权衡。它能够表示较大范围的数值，但在精度上相对较低。这意味着在一些需要高精度计算的情况下，可能会出现舍入误差。

单精度浮点数在许多编程语言中都有相应的类型表示，例如 C、C++、Java 中的float类型。它常用于一般的科学计算、图形处理、游戏开发等领域，对于不需要极高精度的任务来说，单精度浮点数通常可以提供足够的准确性。

然而，对于需要更高精度的计算，例如金融计算、科学研究等，可能需要使用双精度浮点数（Double-precision floating-point）或其他更精确的数值类型。双精度浮点数通常占用 64 位二进制数，提供更高的精度和更大的表示范围。

需要注意的是，具体的单精度浮点数的特性和行为可能会因编程语言和计算机体系结构的不同而有所差异。在使用浮点数进行计算时，了解和处理可能的舍入误差是很重要的。如果对数值计算的精度有特定要求，可能需要进一步研究和选择适合的数值类型和算法。

单精度浮点数怎么计算、储存？

单精度浮点数的计算方法可以参考下面这个公式：。其中，表示单精度浮点数，是符号位，占用1位，正数为0，负数为1。是指数位，占用8位，是尾数位，占用23位。

单精度浮点数在储存时占用32个二进制（bit）。具体储存方式为：最高位为符号位（Sigh），其中0代表正数，1为负数；第63-52位为偏移的指数位（Exponent），用于表示以2为底的指数，表示范围为(-1023,1024)；剩下的23位为尾数位（Mantissa）。

单精度浮点数转换

将单精度浮点数转换为二进制格式；

格式化二进制，类似于十进制里面的科学计数法；

求阶码：阶码=偏移量+$阶码真值。在单精度的浮点数中，偏移量为127。

双精度浮点数是什么？

双精度浮点数(double)是计算机使用的一种数据类型，占用64位（8字节），可以表示十进制的15或16位有效数字，其可以表示的数字的绝对值范围大是：-1.79E+308~+1.79E+308。

C、C++中使用到的双精度浮点数（double）类型是在IEEE二进制浮点数算术标准（ANSI/IEEE Std 754-1985）中定义的。双精度浮点数（Double）用来表示带有小数部分的实数，一般用于计算机编程中定义变量，占用8个字节存储空间，其数值范围为-1.7E-308～1.7E+308，双精度浮点数最多有15或16位十进制有效数字。

双精度浮点数和单精度浮点数类似，也是一种用于表示实数的数值类型。与单精度浮点数相比，双精度浮点数占用更多的存储空间（通常为 64 位），因此能够提供更高的精度和更大的表示范围。

双精度浮点数在需要更高精度的计算中非常有用，例如科学计算、金融领域、工程模拟等。它可以更准确地表示非常大或非常小的数值，并且在计算中可以减少舍入误差的影响。

在大多数编程语言中，双精度浮点数通常使用特定的类型标识符来表示，例如double或Double。与单精度浮点数一样，双精度浮点数的具体实现和行为可能会因编程语言和计算机体系结构的不同而有所差异。

如果你需要进行高精度计算或者处理大范围的数值，双精度浮点数可能是一个更好的选择。不过，在使用双精度浮点数时，也需要注意内存占用和性能方面的考虑，因为它需要更多的存储空间和计算资源。

双精度浮点数怎么计算、储存？

双精度浮点数的计算方式与单精度浮点数类似，都是采用科学计数法进行计算，即把一个数表示成的形式，其中是尾数（mantissa），是指数（exponent）。在双精度浮点数中，占用64位，占用11位，其中的正负各占5位，具体的存储格式如下：

符号位（Sign）：1位，用于表示数字的正负。

指数位（Exponent）：11位，用于表示中的。

尾数位（Fraction/Mantissa）：52位，表示。

这种存储格式使得双精度浮点数可以表示的数字范围非常大，大约是到，能够满足大多数科学计算和工程计算的需求。

按照IEEE-754标准，双精度浮点数在内存中是按照符号位、指数部分和尾数部分来存储的。

符号位：1位，‘1’代表负数、‘0’代表正数。

指数部分：11位，存储时会加上一个偏移量1023。因此，实际存储的指数值为原始指数值加上1023。

尾数部分：52位，表示二进制科学计数法中的尾数。由于尾数部分的取值范围是(1,2)，存储时会默认省略小数点前的数字1。

总之，双精度浮点数采用了科学计数法的方式进行存储，通过符号位、指数部分和尾数部分的组合，可以在计算机内部高效地表示和处理浮点数。

双精度浮点数转换

在不同的编程语言中，双精度浮点数的转换方法可能有所差别。以C语言为例，可以使用printf函数将双精度浮点数转换为十六进制格式——

在上述代码中，首先定义了一个双精度浮点数num，然后使用printf函数将其转换为十六进制格式并打印输出。

单、双精度浮点数的区别在哪？

单精度浮点数（Single-precision floating-point）和双精度浮点数（Double-precision floating-point）主要在以下方面有所区别：

存储位数：单精度浮点数通常占用 32 位，而双精度浮点数占用 64 位。这意味着双精度浮点数可以表示更大范围和更高精度的数值。

数值范围：由于存储位数的差异，双精度浮点数能够表示的数值范围比单精度浮点数更广。双精度可以表示更大的正数和更小的负数，以及更精确的小数。

精度：双精度浮点数具有更高的精度，能够更准确地表示小数。在进行复杂计算或需要高精度的场景中，双精度通常更可靠。

内存消耗：由于双精度占用更多的存储空间，使用双精度浮点数会消耗更多的内存。

性能：在一些情况下，双精度的计算可能会比单精度稍微慢一些，因为需要更多的运算和处理。

选择使用单精度还是双精度通常取决于具体的应用需求。如果数值范围和精度要求不高，或者内存资源有限，单精度可能更合适。而对于需要更高精度或处理更大范围数值的任务，双精度可能是更好的选择。

以上就是对单、双精度浮点数的全部讲解了，如果您对算力需求感兴趣，可以进入厚德云官网。

厚德云是一款专业的AI算力云平台，为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用，就在厚德云。点击链接https://www.houdeyun.cn/进入厚德云！我们随时欢迎您的到来！

厚德云

关注

17
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
从零学习单、双精度浮点数

指数表示小数点的位置，基数表示小数点左侧的数字。双精度浮点数的计算方式与单精度浮点数类似，都是采用科学计数法进行计算，即把一个数表示成的形式，其中是尾数（mantissa），是指数（exponent）。双精度浮点数(double)是计算机使用的一种数据类型，占用64位（8字节），可以表示十进制的15或16位有效数字，其可以表示的数字的绝对值范围大是：-1.79E+308~+1.79E+308。与单精度浮点数相比，双精度浮点数占用更多的存储空间（通常为 64 位），因此能够提供更高的精度和更大的表示范围。
复制链接

扫一扫