8位浮点数的表示法

最新推荐文章于 2024-04-20 02:16:25 发布

申龙斌

最新推荐文章于 2024-04-20 02:16:25 发布

阅读量4.1k

点赞数 4

分类专栏： C# 文章标签： c# 计算机原理

本文链接：https://blog.csdn.net/slofslb/article/details/120405890

版权

C# 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

32位浮点数的计算机内部表示是由IEEE754标准定义的，参考文献相当多。
在这里插入图片描述
简单来说，是由1位符号位、8位指数位（阶码）和23位小数部分共同定义的。如果你想看看任何一个浮点数的4个字节的二进制表示细节，可以在这个网站里进行练习。

https://www.h-schmidt.net/FloatConverter/IEEE754.html

IEEE754规范中只定义了32位(float)和64位(double)浮点的表示法，好像还有扩展的16位、128位的浮点数表示法，但用的最多的仍是32位、64位浮点。

IEEE754规范实际上还是挺复杂的，小数部分有隐含1.0的情况（规格化的小数），也有非规格化的小数，阶码要加偏移量，还要表示无穷大，NaN这些特殊的值，还要让数字0的内部表示全为0。

8位浮点数表示法，并没有相关规范，有一个MiniFloat，但与我们教科书的不太一样。

这里是一种简化的8位浮点数定义：
在这里插入图片描述

1）这里的符号位是最高位：0为正，1为负
2）指数位，阶码，3位，为了表示-4到3的范围，需要减去4，即000表示-4，111表示3，注意与IEEE754规范不同
3）小数位，4位：按IEEE754规范，隐含着1.0

为了试验这些浮点数，我写了一个C#程序：

/// <summary>
/// 8位浮点数表示
/// +----+-----------+----------------+
/// + b7 |  b6 b5 b4 | b3  b2  b1  b0 |
/// +sign|    exp    |    mantissa    |
/// +----+-----------+----------------+
/// 符号位：0为正，1为负
/// 指数位，阶码，3位：000表示-4，111表示3
/// 小数位，4位：按IEEE754规范，隐含着1.0
/// </summary>
public struct MiniFloat
{
    public readonly static double DEFAULT_MANTISSA = 1.0;
    public int sign; // 符号位，0为正，1为负
    public int e; // [-4, 3]
    public int m; // [0, 15]

    public MiniFloat(int s, int e, int m)
    {
        this.sign = s;
        this.e = e;
        this.m = m;
    }

    public MiniFloat(int binary)
    {
        this.sign = (binary & 0x80) >> 7;
        this.e = ((binary & 0x70) >> 4) - 4; // 3位阶码，表示范围为0到7，减去4后，表示范围为-4到3
        this.m = binary & 0x0F; // 后4位
    }

    public double GetValue()
    {
        return (sign == 0 ? 1 : -1) * CompMantissa(m) * Math.Pow(2, e);
    }

    public override string ToString()
    {
        string s = string.Format("值：{0}，指数部分：{1}，小数部分：{2}，二进制表示：{3}", GetValue(), e, m, BinaryString());
        return s;
    }

    public string GetDetails()
    {
        StringBuilder sb = new StringBuilder();
        sb.AppendLine("数值：" + GetValue());
        sb.AppendLine("二进制表示：" + BinaryString());
        sb.AppendLine("小数部分(二进制)：" + (int)DEFAULT_MANTISSA
            + "." + Convert.ToString(m, 2).PadLeft(4, '0'));
        double manti = MiniFloat.CompMantissa(this.m);
        sb.AppendLine("小数部分(十进制)：" + manti);
        sb.AppendLine("阶码：" + this.e);
        sb.AppendLine(GetValue() + " = " + manti + " * (2 ^ " + this.e + ")");
        return sb.ToString();
    }

    public string BinaryString()
    {
        return Convert.ToString((sign << 7 | ((e + 4) & 0x7) << 4) | m, 2).PadLeft(8, '0');
    }

    static public double CompMantissa(int bits)
    {
        double[] v = { 0.5, 0.25, 0.125, 0.0625 };
        double mantissa = DEFAULT_MANTISSA; // IEEE754规定小数部分都是1.0开始
        for (int i = 0; i < v.Length; i++)
        {
            if ((bits & 0x08) != 0)
            {
                mantissa += v[i];
            }
            bits = bits << 1;
        }
        return mantissa;
    }
}

上面是一个结构体。主程序要试验几个浮点数的8位表达细节。

static void Main(string[] args)
{
    double[] arr = { 6.25, 7, 2.5, 0.1875, 0.1, 0.0 };
    foreach (double f in arr)
    {
        MiniFloat a = TryMiniFloat(f);
        if (Math.Abs(a.GetValue() - f) > 1.0e-8)
        {
            Console.WriteLine("!!!!!!!!!!不能准确表达 " + f);
        }
        Console.WriteLine(a.GetDetails());
    }
    Console.ReadLine();
}

static MiniFloat TryMiniFloat(double f)
{
    double eps = 999.0;
    MiniFloat mini = new MiniFloat { };
    for (int i = 0; i < 256; i++)
    {
        MiniFloat temp = new MiniFloat(i);
        double approx = temp.GetValue();
        if (Math.Abs(approx - f) < eps)
        {
            eps = Math.Abs(approx - f);
            mini = temp;
        }
    }
    return mini;
}

可以发现，这种表示方法，不能精确地表示0.1。
最接近0.1的数是：0.1015625
二进制表示：00001010
小数部分(二进制)：1.1010
小数部分(十进制)：1.625
阶码：-4
0.1015625 = 1.625 * (2 ^ -4)

提醒注意，这个表示法只是为了简要说明浮点数的表示法，很多细节与IEEE754不同：
1）不能准确表示0，IEEE754规定0.0一定是4个字节的全零
2）阶码的偏移量也不对，按IEEE754，偏移量应该为3
3）当阶码不是000，也不是111的时候，这个时候尾数应该是规格化的数，即隐含着1.0
4）当阶码为000时，尾数为非规格化的数
5）当阶码为111时，IEEE规定为NaN特殊值

这些细节我没空深究下去了，欢迎大家讨论。

申龙斌

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
8位浮点数的表示法

32位浮点数的计算机内部表示是由IEEE754标准定义的，参考文献相当多。简单来说，是由符号位、指数位（阶码）和小数部分共同定义的。https://www.h-schmidt.net/FloatConverter/IEEE754.htmlIEEE754规范中只定义了32位(float)和64位(double)浮点的表示法，好像还有扩展的16位、128位的浮点数表示法，但用的场景不多。8位浮点数表示法，并没有相关规范，详细内容搜索IEEE754规范，并仔细阅读。/// +----+--------
复制链接

扫一扫