一种小数表示方法

最新推荐文章于 2024-08-05 13:23:50 发布

enmouhuadou

最新推荐文章于 2024-08-05 13:23:50 发布

阅读量2.2k

点赞数 3

分类专栏：算法

本文链接：https://blog.csdn.net/m0_49540263/article/details/111615040

版权

算法专栏收录该内容

10 篇文章

订阅专栏

1、浮点数：小数点位置是漂浮不定的。

例如：浮点数运算 1.1 * 1.1 = 1.21，小数点位置发生了变化。
在这里插入图片描述
IEEE 754 规定，浮点数的表示方法为：

在这里插入图片描述

最高的 1 位是符号位 s，接着的 8 位是指数E，剩下的 23 位为有效数字 M。

**2、定点数：**小数点的位置是确定的。

例如：定点数运算 1.1 * 1.1 = 1.2，小数点的位置没有变化。
在这里插入图片描述

定点的意思是，小数点固定在 32 位中的某个位置，前面的是整数，后面的是小数。

小数点具体固定在哪里，可以自己在程序中指定。

以下针对浮点数的定点化进行讨论：

小数例子 : 2.918 12.918 3.1415926

转成定点数要定义小数需求多少位,整数需求多少位

例:16位的定点数(MAX:16’d32767 MIN:-32768)
3位整数位宽,12位的小数位,最高位的符号位
取低15位,其中第14,13,12位最大能表示7,
小数最大12位能表示的最大精度:1/4096=0.000244140625
(0.000244140625*4095 = 0.999755859375)
极限最大值表示:7.999755859375

说明:
判断能否用12位精度表示(即:无损失定点化),看能否除尽:
比如:12.918
3位整数位宽最大只能表示7 所以整数12需要4位位宽
小数部分0.918 判断:0.918/0.000244140625 = 3760.128 所以12位小数位能表示0.918

例:2.918进行定点化的过程:
8/32768 = 0.000244140625(最大精度)，
这里是因为16位的定点数，3位整数位宽,12位的小数位,最高位的符号位。所能表示的最大绝对值是-8所对应的，而16bit所能表示的最大绝对值是-32768所对应的，所以16bit的最大精度为8/32768.也可以用7.999755859375/32767
更简单的，因为小数位宽为12bit，所以精度为1/2^12=0.000244140625(最大精度)

2.918/0.000244140625 = 11952.128 四舍五入的量化形式最终取11952，表示2.918定点后的值
也可以直接2.918x2^12=11952.128
量化误差为：11952*0.000244140625=2.91796875，2.918-2.91796875=0.00003125

例:3.1415926进行定点化
3.1415926/(8/32768) ~=12,867.9632896,四舍五入取12868
12868转化为浮点数: 16’d12868 = 16’b0011 0010 0100 0100
其中: 整数部分表示 011 = 3 小数部分表示 0010 0100 0100 = 580
(10进制数580需要转换成小数:580/4096=0.1416015625)
量化误差:
12868-12,867.9632896=0.0367104；0.0367104/2^12=0.0000089625
或者：3.1415926-12868*（1/2^12）=-0.0000089625，量化误差0.0000089625

无损量化：
所谓【无损定点化】只是数学概念，只要量化误差小于精度的一半，就认为是“无损”的。按照这个标准，那对小数点采取四舍五入的结果必然是无损的。但是校招时很多题采取的是“量化后直接去除小数”，那么小数大于 0.5 则不是无损的了。
对12.918进行无损量化，要保留小数点后四位，就是比0.001多一位，同样，二进制的2^-8是0.00390625，它是0.008的1/2，也就是说在二进制中它能精确到0.008的后一位，也就是可以做到无损量化了。

总结:
1.定义位宽
2.表示出最大最小值
3.定点化过程

浮点数的乘法表示(注意相乘后位宽变化):
例:2.9183.1415926 ~= 1195212868
浮点结果 : 2.9183.1415926 = 9.1671672068
定点结果 : 1195212868 = 153798336 ~= 9.167095184326171875
‭‬
153798336 = 0000 1001 0010 1010 1100 0110 1100 0000‬
整数部分表示: 001001 = 9
小数部分表示: ‭2803392‬/(2^24) = 0.167095184326171875‬

例:正数的定点化
5bit的正数位,8bit的小数位
11.11111定点数的结果
很简单因为8bit的小数位，所以最大精度为1/2^8=0.00390625
11.11111/0.00390625=2844.44416,所以2844即为11.11111的定点化表示形式，
量化误差
2844=0_1011_0001_1100,5bit 0_1011表示整数部分11，8bit 0001_1100表示小数部分0.11111

定点数相乘
定点转换（Qn=12）
符号1位，整数取3位（实际2位就够），小数12位，可以看成把 1 分成了 212份，因此：
2.918 * 212 = 11952.168 = 11952；
3.1415926 * 212 = 12867.8632896 = 12868；
11952 * 12868 = 153798336。
相乘后，整数部分为 6 位，小数部分为 24 位。因此结果 = 153798336 / 224 = 9.167095184326171875，和原计算值差距非常小。

一种浮点数表示方法

（是否有符号数,总位宽，小数部分位宽）
小数部分位宽是指小数部分量化精度

举例：
（0，8，6）：8’b0100_0010 ：表示无符号数,8-0-6=2,2bit表示整数位，6bit表示小数位：1+2*(1/2^6)=1.03125；反过来，1.03125* 2的6次方 = 8’b0100_0010；
（1，9，3）：9’b1_1110_0101表示有符号数，最高位是符号位，9-1-3=5,次5bit是整数位，剩下3bit是
小数位：-(28+5*(1/2^3))= -28.625
比如说两个（1，9，3）的数参与运算：
-28.625：9’b1_1110_0101 ； -3.125：9‘b1_0001_1001
符号位不参与运算：
9’b1_1110_0101 + 9‘b1_0001_1001 = 10’b10_1111_1110
10’b10_1111_1110 是（1，10，3）的数，即：-（31+6/2^3）= -31.75

（1,6，8）：此种情况较为特殊，小数部分位宽精度大于整个数据位宽，此时除去最高位符号位剩余的所有bit都表示小数部分。这是因为某些情况下，小数精度达到小数点后8bit但是，有效位只保留6bit，这样做是为了节省资源，再数据在参与运算时，可以降低加法器/乘法器等运算位宽或者说寄存器等。
如：10_0111 表示有符号数，-(7*(1/(2^8)))=-0.02734375

此处负数不是补码？？？

另外浮点数量化方法有：
低位截位，高位截位，饱和截位（大于某阈值取最大值，小于某阈值取最小值），四舍五入，向下取整，向上取整等

为什么需要补码？

都是因为“0”这个特殊数字的存在。

先问你一个问题:0是正数还是负数？你肯定会说：0既不是正数也不是负数，这是我们初中学到的数学知识。这个回答没有问题，所以以后每次碰到0，人们都不会把它当正数或负数。

那么计算机呢？计算机不同于人脑，计算机在碰到任何数字之前只根据最高位的符号位来判断正负性，“0”表示正数,“1”表示负数。

前面我们推论了为何要用反码，那么用8位二进制反码表示的正数范围： +0 —— +127；负数范围： -127 —— -0。但是，其中有两个特殊的编码会出现：

[0_0000000]=+0 （反码）

[1_1111111]=-0 （反码）

其实，+0和-0代表的都是0。这样一来，“0”这个数字在计算机中的编码就不是唯一的了。对于计算机来说，这是绝对不行的，因为任何数字都只能有1个编码。

于是，聪明的人就做了这样一个决定：把0当成正数，也即+0，这样0的编码就变成：0_0000000。那8位二进制表示的正数范围仍然是： +0 —— +127。

但是，对于负数就必须要做调整，也即-0必须要让位—1_1111111这个编码不能表示-0。我们可以把负数整体向后“挪动1位”：只要将8位二进制表示的负数范围从：-127 —— -0变成：-128 —— -1，就能成功解决问题。