（转）FPGA浮点小数与定点小数的换算及应用

最新推荐文章于 2024-05-25 11:57:34 发布

flying8eagle

最新推荐文章于 2024-05-25 11:57:34 发布

阅读量985

点赞数 1

定点小数运算

有些FPGA中是不能直接对浮点数进行操作的，只能采用定点数进行数值运算。

所谓定点小数就是把小数点的位置固定，我们要用整数来表示小数。

先以10进制为例。如果我们能够计算12+34=46的话，当然也就能够计算1.2+3.4 或者 0.12+0.34了。所以定点小数的

加减法和整数的相同，并且和小数点的位置无关。乘法就不同了。 12*34=408，而1.2*3.4=4.08。这里1.2的小数点在第1位之前，而4.08的小数点在第2位之前，小数点发生了移动。所以在做乘法的时候，需要对小数点的位置进行调整？！可是既然我们是做定点小数运算，那就说小数点的位置不能动！！怎么解决这个矛盾呢，那就是舍弃最低位。
也就说1.2*3.4=4.1，这样我们就得到正确的定点运算的结果了。所以在做定点小数运算的时候不仅需要牢记小数点的位置，还需要记住表达定点小数的有效位数。上面这个例子中，有效位数为2，小数点之后有一位。

现在进入二进制。我们的定点小数用16位二进制表达，最高位是符号位，那么有效位就是15位。小数点之后可以有0 - 15位。我们把小数点之后有n位叫做Qn，例如小数点之后有12位叫做Q12格式的定点小数，而Q0就是我们所说的整数。

Q12的正数的最大值是 0 111 . 111111111111，第一个0是符号位，后面的数都是1，那么这个数是十进制的多少呢，很好运算，就是 0x7fff / 2^12 = 7.999755859375。对于Qn格式的定点小数的表达的数值就它的整数值除以2^n。在计算机中还是以整数来运算，我们把它想象成实际所表达的值的时候，进行这个运算。

反过来把一个实际所要表达的值x转换Qn型的定点小数的时候，就是x*2^n了。例如 0.2的Q12型定点小数为：0.2*2^12 = 819.2，由于这个数要用整数储存，所以是819 即 0x0333。因为舍弃了小数部分，所以0x0333不是精确的0.2，实际上它是819/2^12 =0.199951171875。
我们用数学表达式做一下总结：

x表示实际的数（*一个浮点数）， q表示它的Qn型定点小数（一个整数）。

q = (int) (x * 2^n)

x = (float)q/2^n
验证：

由于/ 2^n和* 2^n可以简单的用移位来计算，所以定点小数的运算比浮点小数要快得多。下面我们用一个例子来验证一下上面的公式：

用Q12来计算2.1 * 2.2，先把2.1 2.2转换为Q12定点小数：

2.1 * 2^12 = 8601.6 = 8602

2.2 * 2^12 = 9011.2 = 9011

(8602 * 9011) >> 12 = 18923

18923的实际值是18923/2^12 = 4.619873046875 和实际的结果 4.62相差0.000126953125，对于一般的计算已经足够精确了。

小数的定标精度、范围

采用定点数进行数值运算，其操作数一般采用整型数来表示。一个整型数的最大表示范围取决于DSP芯片所给定的字长，一般为16位或24位。显然，字长越长，所能表示的数的范围越大，精度也越高。

对于FPGA而言，FPGA对小数是无能为力的，一种解决方法是采用定标，就是将运算的浮点数扩大很多倍，然后取整，再用这个数进行运算，运算结束后再缩小相应的倍数。

通过设定小数点在16位数中的不同位置，就可以表示不同大小和不同精度的小数了。数的定标有Q表示法和S表示法两种。表1.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。

同样一个16位数，若小数点设定的位置不同，它所表示的数也就不同。例如：

16进制数2000H=8192，用Q0表示

16进制数2000H=0.25，用Q15表示

不同的Q所表示的数不仅范围不同，而且精度也不相同。Q越大，数值范围越小，但精度越高；相反，Q越小，数值范围越大，但精度就越低。

例如，Q0 的数值范围是一32768到+32767，其精度为1，而Q15的数值范围为-1到0.9999695，精度为1/32768=0.00003051。因此，对定点数而言，数值范围与精度是一对矛盾，一个变量要想能够表示比较大的数值范围，必须以牺牲精度为代价；而想精度提高，则数的表示范围就相应地减小。在实际的定点算法中，为了达到最佳的性能，必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：

浮点数(x)转换为定点数(xq)：xq=(int)x* 2^Q

定点数(xq)转换为浮点数(x)：x=(float)xq*2^(-Q)

例如，浮点数x=0.5，定标Q=15，则定点数xq=L0.5*32768J=16384，式中LJ表示下取整。反之，一个用Q=15表示的定点数16384，其浮点数为16384*2-15=16384/32768=0.5。浮点数转换为定点数时，为了降低截尾误差，在取整前可以先加上0.5。

Q和S表示方法，如下表所示。

Q表示
S表示
十进制表示范围

Q15

S0.15

-1≤x≤0.9999695

Q14

S1.14

-2≤x≤1.9999390
Q13

S2.13

-4≤x≤3.9998779
Q12

S3.12

-8≤x≤7.9997559
Q11

S4.11

-16≤x≤15.9995117
Q10

S5.10

-32≤x≤31.9990234
Q9

S6.9

-64≤x≤63.9980469
Q8

S7.8

-128≤x≤127.9960938
Q7

S8.7

-256≤x≤255.9921875
Q6

S9.6

-512≤x≤511.9804375
Q5

S10.5

-1024≤x≤1023.96875
Q4

S11.4

-2048≤x≤2047.9375
Q3

S12.3

-4096≤x≤4095.875
Q2

S13.2

-8192≤x≤8191.75
Q1

S14.1

-16384≤x≤16383.5
Q0

S15.0

-32768≤x≤32767

///

一般在FPGA中处理小数定点数，需要自己去定点，比如用16位，就可以分成8位整数和8位小数，即（8，8），即"定点"在第8位。那么：

1 -> 16'h0100

1.5 -> 16'h0180

-1.5 -> -1.5*256 + 65536(补码) -> 16'hFE80

......

1.164 -> 1.164*256 = 298 = 16'h012A
如果两个小数相乘，即表示定点数相乘，比如，Q15表示的4000H（浮点数0.5）乘以Q15表示的4000H，4000H×4000H=1000 0000H，那么乘完之后的Q值为15+15=30.即浮点数表示0.25.
---------------------
作者：请叫我小菜鸡先生
来源：CSDN
原文：https://blog.csdn.net/github_33678609/article/details/53465626
版权声明：本文为博主原创文章，转载请附上博文链接！

flying8eagle

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
（转）FPGA浮点小数与定点小数的换算及应用

定点小数运算有些FPGA中是不能直接对浮点数进行操作的，只能采用定点数进行数值运算。所谓定点小数就是把小数点的位置固定，我们要用整数来表示小数。先以10进制为例。如果我们能够计算12+34=46的话，当然也就能够计算1.2+3.4 或者 0.12+0.34了。所以定点小数的加减法和整数的相同，并且和小数点的位置无关。乘法就不同了。 12*34=408，而1.2*3.4=4.08。这...
复制链接

扫一扫