FPGA的浮点数与定点数表示

定点数:

  • x表示实际的数(*一个浮点数), q表示它的Qn型定点小数(一个整数)。

    q = (int) (x * 2^n)

    x = (float)q/2^n

  • 其中n表示小数的位数

  • 例:

    由于/ 2^n和* 2^n可以简单的用移位来计算,所以定点小数的运算比浮点小数要快得多。下面我们用一个例子来验证一下上面的公式:

    用Q12来计算2.1 * 2.2,先把2.1 2.2转换为Q12定点小数:

    2.1 * 2^12 = 8601.6 = 8602

    2.2 * 2^12 = 9011.2 = 9011

    (8602 * 9011) >> 12 = 18923

    18923的实际值是18923/2^12 = 4.619873046875 和实际的结果 4.62相差0.000126953125,对于一般的计算已经足够精确了。小数的定标精度、范围采用定点数进行数值运算,其操作数一般采用整型数来表示。一个整型数的最大表示范围取决于DSP芯片所给定的字长,一般为16位或24位。显然,字长越长,所能表示的数的范围越大,精度也越高。对于FPGA而言,FPGA对小数是无能为力的,一种解决方法是采用定标,就是将运算的浮点数扩大很多倍,然后取整,再用这个数进行运算,运算结束后再缩小相应的倍数。

浮点数:

一、FPGA表示浮点数的方法
FPGA表示浮点数的方法主要由两个
1 自己定义的 比如最高位位符号位,中间n位为整数部分,最后m位为小数部分

举个例子
3.14 转换位2进制 11.00100011
我们可以表示为这样 0_00000011_00100011
最高位为符号位 中间八位为整数部分,后八位为小数部分
这种定义的方式只有程序员自己知道 在写程序的时候可以随意的定义

2 IEEE浮点数表示方式:

公式:(-1)^s * (1+小数部分)*2^(e-127)

格式:32位的格式:其中最高位为符号位(s),中间8位为阶码位(e),小数部分为23位。

e=127+n   ; n表示原始数据以科学计数法表示的指数

对于单精度(float)的数字来说 主要包括 最高位位符号位,中间8位阶码位,最后23位为尾数
还是拿3.14来举例 转换位2进制 11.00100011…
首先必须先将数据转换为1.x * 2^m次的格式 即 1.100100011 * 2^1格式
8位阶码位的大小位 127+1 127为固定的 1为2的指数
尾数就是小数点后面的所有数据 100100011后面补充0 到23位
所以最终表示为 0_10000000_10010001100000000000000 即 十六进制:4048C000(H)
通过计算机计算 发现4048C000对应的小数为3.136719 该误差是由于在计算3.14转换位2进制的时候只取了小数点后的8位,从而精度有了偏差
为了验证该表示方法的正确性 我们将3.14的二进制多取几位
3.14 = 11.001000111101011100001…
同理转换为科学技术法 3.14 = 11.001000111101011100001 = 1.1001000111101011100001 * 2^1
阶码位127+1 = 128
最终表示结果 0_10000000_10010001111010111000010 = 4048F5C2 (H)
经过计算器验证 4048F5C2 (H)对应的小数结果位3.140000 该表示方式正确

关于数据的表示:

        进制/移位/小数点……待续

在各种进制下,移位都相当于移小数点,在计算机中利用好2进制的移位/截位操作,可以巧妙化解一些计算
 

 

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值