操作系统系列十 —— 浮点数存储和定点化逻辑

最新推荐文章于 2024-05-17 15:40:25 发布

浪矢杂谈

最新推荐文章于 2024-05-17 15:40:25 发布

阅读量294

点赞数

分类专栏：计算机操作系统文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_37620587/article/details/125247334

版权

计算机操作系统专栏收录该内容

17 篇文章 8 订阅

订阅专栏

往期地址：

本期主题：
浮点数存储和定点化逻辑

浮点数存储和定点化逻辑

1.二进制小数
2.浮点数存储
3.代码测试

背景：
在工作中遇到一些寄存器的定点化问题，发现这个与浮点数的存储逻辑有一定相关性，因此把这块知识整理一下。

1.二进制小数

目前我们所用的浮点数的标准是IEEE-754标准。

IEEE是电气和电子工程师协会，是一个包括所有电子和计算机技术的专业团队。

需要理解浮点数，首先需要理解二进制小数。
首先我们可以看一下传统的十进制表示法，例如有一个数用十进制表示为：

$d_m$ $d_{m-1}$ $d_{m-2}$ … $d_1$ $d_0$ . $d_{-1}$ … $d_{-n}$

那么这个数的实际表示的值为：

$\sum_{i=-n}^m10^i*d_i$

那么这个数如果用二进制表示的话，其实就是：

$\sum_{i=-n}^m2^i*d_i$
例如， $101.11_2$ 实际上就是： $1*2^2+1*2^0+1*2^{-1}+1*2^{-2}=5\frac{3}{4}$

从上面的公式也能知道，想用二进制表示一个小数，精度取决于用多少位来进行表示，例如

二进制表示值	精度	十进制
$0.0_2$	$\frac{1}{2}$	$0.0_{10}$
$0.01_2$	$\frac{1}{4}$	$0.25_{10}$
$0.01001_2$	$\frac{1}{32}$	$\frac{9}{32}=0.28125_{10}$

2.浮点数存储

前面所描述的定点表示法，无法很有效地表示非常大的数字，例如表达式 $5*2^{100}$ ，需要有100个0才能表达
因此IEEE754标准用：

$V=(-1)^s*M*2^E$ 来表示一个数

其中：

符号(sign)，s代表符号，s=1代表负数，s=0代表正数
尾数(significand)，M是一个二进制小数，范围是1~2
阶码(exponent)，E代表2的E次幂

因此我们可以将浮点数划分成3个字段，分别进行编码：

单独的符号s直接编码
k位的阶码编码， $exp=e_{k-1}e_{k-2}....e_0$
n位小数字段编码， $frac=f_{n-1}f_{n-2}...f_0$

在单精度浮点表达时，按照以下的格式进行表达：
在这里插入图片描述
根据指数位exp的内容，又能将浮点数的存储分为 规格化 、 非规格化存储 以及特殊值

规格化：
在这里插入图片描述
非规格化：

1.规格化值

当exp既不全为0，也不全为1时，这种情况下，阶码被解释为以bias形式表示的有符号整数，也就是说

阶码的值是 E = e - bias，其中e是无符号数，表示为 $e_{k-1}e_{k-2}...e_1e_0$ ，bias是一个等于 $2^{k-1}-1$ 的值（单精度是127，双精度是1023）

小数字段frac被描述为小数值f， $0\leq f< 1$ ，其二进制表示为 $0.f_{n-1}...f_1f_0$

尾数 M=1+f， $1\leq M< 2$ ，由于M的第一位必定是0，所以我们就不需要显式的表达它

规格化值的一个关键在于：
可以通过调整阶码E，使得尾数M的范围在有效范围内

例如从1.25->2.25，1.25用二进制表达为： $1.25_{10} = 1.01_2$ ，而 $2.25_{10} = 10.01_2$ ，将阶码增加1变为 $1.001_2$ ，因此1.25和2.25的差异在于2.25的阶码比1.25大1，并且小数部分，2.25是1.25的 $\frac{1}{2}$

2.非规格化值

阶码域全为0时，所表达的是非规格化形式，这种情况下

阶码值是 E= 1 - bias
尾数值是M = f，不包含隐式的开头1

3.示例

假设现在有一个8位浮点格式，其中阶码位为4位，小数位为3位
那么就有

$bias = 2^{4-1}-1=7$

在这里插入图片描述

3.代码测试

实验目的：将输入浮点数的sign、exp、frac都打印出来，验证猜想

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>

typedef struct _my_str_t
{
    union 
    {
        float val;
        struct _my_union_str_t
        {
            uint32_t frac : 23;
            uint32_t exp  : 8;
            uint32_t sign : 1;
        } union_str_t;
    };
} my_str_t;

int main(void)
{
    my_str_t my_str = { 0 };
    printf("Please input test float val :\r\n");
    scanf("%f", (float *)&(my_str.val));

    printf("sign is 0x%x, exp is 0x%x (%d), frac is 0x%x\r\n", my_str.union_str_t.sign, my_str.union_str_t.exp, my_str.union_str_t.exp, my_str.union_str_t.frac);

    return 0;
}