bf16 和fp16 ，fp32的区别以及相互转换逻辑

samoyan

已于 2024-07-29 11:35:00 修改

阅读量2.7w

点赞数 29

分类专栏： LLM 面试文章标签：人工智能

于 2024-03-07 10:25:40 首次发布

本文链接：https://blog.csdn.net/baoyan2015/article/details/136526423

版权

LLM 面试专栏收录该内容

43 篇文章

订阅专栏

1. 数值精度和表示范围

FP32 (单精度浮点数): 使用32位来表示浮点数，其中1位用于符号，8位用于指数，23位用于尾数（有效数字）。FP32提供了较大的数值范围和较高的精度，适合需要高精度计算的应用场景，如科学计算和工程模拟。
FP16 (半精度浮点数): 使用16位来表示浮点数，其中1位用于符号，5位用于指数，10位用于尾数。FP16的数值范围和精度都小于FP32，但它可以减少内存占用和计算资源，适合对精度要求不是非常高的场景，如某些深度学习应用。
BF16 (Brain Floating Point): 使用16位表示浮点数，与FP16不同的是，BF16的1位用于符号，8位用于指数，7位用于尾数。BF16的设计允许它与FP32有相同的数值范围，尽管它的精度比FP32低。BF16特别适合深度学习领域，因为深度学习模型通常对数值范围更敏感，而对精度的要求可以相对较低。

2. 应用场景

FP32: 由于其高精度，FP32广泛用于需要精确计算的应用，如科学研究、工程设计、金融建模等。
FP16: 通常用于深度学习训练和推理过程中，可以加速计算并减少内存占用，同时大多数情况下对模型准确性的影响较小。
BF16: 由于其能够保持与FP32相同的数值范围，BF16在深度学习中越来越受欢迎，特别是在Google的TPU等硬件加速器中得到了支持。BF16可以提供比FP16更好的训练稳定性，同时仍然享有FP16的计算和存储效率。

3. 硬件支持

FP32: 几乎所有现代CPU和GPU都支持FP32运算。
FP16: 许多现代GPU和一些专门的AI加速器支持FP16运算，用以提高深度学习任务的性能。
BF16: BF16的硬件支持较为有限，但它正在被越来越多的AI专用硬件和某些CPU支持，例如Intel的新一代处理器和Google的TPU。

混合精度方法的原理：混合精度训练融合了FP32的高精度和FP16的高效率，旨在提升深度学习训练的速度。特别是在利用GPU执行广泛的并行运算时，这种方法有助于缓解内存带宽和显存容量限制对性能的影响。

实施细节：

在采用混合精度的训练策略中，我们通常在模型的前向和后向传播阶段使用FP16来存储权重和激活值。为了保证计算精度，我们会通过损失放缩技术，即在梯度累加前将其放大一个特定倍数，然后在权重更新前再将其缩减，这样可以在享受FP16带来的计算效率的同时，还能保持合理的数值精度以确保参数更新的有效性。

框架和库支持：

多个主流的深度学习平台，包括PyTorch、TensorFlow以及NVIDIA的apex库，均支持混合精度训练。这为开发者提供了一种无需牺牲模型性能的情况下，显著提高训练速度并减少硬件资源消耗的有效途径。

注意：（下面这些转换示例中的一些步骤可能不是必需的，或者可能有更高效的实现方式。在实际应用中，应当使用专业的库函数来进行这些转换，以确保转换的准确性和效率。）

BF16与FP32转换逻辑

BF16到FP32的转换：

将BF16格式的数值的16位表示扩展为32位，其中高位16位为BF16的位表示，低位16位补零。
保持符号位和指数位不变，将尾数位从7位扩充到23位，通过补零完成。

import numpy as np

def bfloat16_to_float32(bf16):
    bf16 = np.float16(bf16)
    bf16_bin = np.frombuffer(bf16.tobytes(), dtype=np.uint16)
    f32_bin = np.array([0, bf16_bin], dtype=np.uint16)
    return np.frombuffer(f32_bin.tobytes(), dtype=np.float32)

# 示例
bf16_value = np.float16(1.5)  # 假设我们有一个BF16值
fp32_value = bfloat16_to_float32(bf16_value)
print("BF16:", bf16_value, "FP32:", fp32_value)

FP32到BF16的转换：

从FP32格式的数值中提取高位的16位，这包括1位符号位、8位指数位和部分尾数位。
由于BF16只有7位尾数位，因此FP32的尾数位需要截断，通常采用向最接近偶数舍入或其他舍入策略。

import numpy as np

def float32_to_bfloat16(value):
    # 将FP32值转化为二进制表示
    f32 = np.float32(value)
    f32_bin = struct.unpack('>I', struct.pack('>f', f32))[0]

    # 截取高16位来形成BF16
    bf16_bin = (f32_bin >> 16) & 0xFFFF

    # 将BF16的二进制表示转换回浮点数
    bf16_f32_bin = bf16_bin << 16
    bf16_f32 = struct.unpack('>f', struct.pack('>I', bf16_f32_bin))[0]

    return bf16_f32


# 示例
fp32_value = 1.337
bf16_value = float32_to_bfloat16(fp32_value)
print("FP32:", fp32_value, "BF16:", bf16_value)

FP16与FP32转换示例

FP16到FP32的转换：

将FP16的16位表示扩展为FP32的32位表示，其中高位16位为FP16的位表示，低位16位补零。
保持符号位不变，指数位需要偏移（FP32的偏移量为127，FP16的偏移量为15），尾数位从10位扩充到23位，通过补零完成。

import numpy as np

def float16_to_float32(value):
    f16 = np.float16(value)
    f32 = f16.astype(np.float32)
    return f32

# 示例
fp16_value = np.float16(1.5)  # 假设我们有一个FP16值
fp32_value = float16_to_float32(fp16_value)
print("FP16:", fp16_value, "FP32:", fp32_value)

FP32到FP16的转换：

从FP32格式的数值中提取出最重要的16位，这包括1位符号位、5位指数位和10位尾数位。
指数位需要重新调整偏移量，尾数位可能需要进行舍入处理以适应FP16的格式。

import numpy as np

def float32_to_float16(value):
    f32 = np.float32(value)
    f16 = f32.astype(np.float16)
    return f16

# 示例
fp32_value = 1.337
fp16_value = float32_to_float16(fp32_value)
print("FP32:", fp32_value, "FP16:", fp16_value)

FP16与BF16转换示例

FP16到BF16的转换：

因为FP16和BF16都是16位，转换主要在于指数位和尾数位的调整。
FP16的指数位需要转换为BF16的指数位，这可能涉及到偏移量的调整。
FP16的10位尾数位需要截断到BF16的7位尾数位，并进行适当的舍入处理。

import numpy as np

def float16_to_bfloat16(value):
    # 将FP16值转换为FP32值
    f16 = np.float16(value)
    f32 = f16.astype(np.float32)
    
    # 将FP32值转换为其二进制表示
    f32_bin = np.frombuffer(f32.tobytes(), dtype=np.uint32)[0]
    
    # 截取高16位来形成BF16
    bf16_bin = (f32_bin >> 16) & 0xFFFF
    
    # 将BF16的二进制表示转换回浮点数
    bf16_f32_bin = bf16_bin << 16
    bf16_f32 = np.frombuffer(np.array([bf16_f32_bin], dtype=np.uint32).tobytes(), dtype=np.float32)[0]
    
    return bf16_f32


# 示例
fp16_value = np.float16(1.5)
bf16_value = float16_to_bfloat16(fp16_value)
print("FP16:", fp16_value, "BF16:", bf16_value)

BF16到FP16的转换：

同样，BF16和FP16的转换涉及指数位和尾数位的调整。
BF16的指数位转换为FP16的指数位，可能需要重新调整偏移量。
BF16的7位尾数位需要扩展到FP16的10位尾数位，通常在低位补零。

import numpy as np

def bfloat16_to_float16(bf16):
    # 将BF16值转换为FP32值
    bf16_bin = np.frombuffer(np.float16(bf16).tobytes(), dtype=np.uint16)[0]
    bf16_f32_bin = bf16_bin << 16
    f32 = np.frombuffer(np.array([bf16_f32_bin], dtype=np.uint32).tobytes(), dtype=np.float32)[0]
    
    # 将FP32值转换为FP16值
    f16 = np.float16(f32)
    
    return f16


# 示例
bf16_value = np.float16(1.5)  # 假设我们有一个BF16值
fp16_value = bfloat16_to_float16(bf16_value)
print("BF16:", bf16_value, "FP16:", fp16_value)

需要注意的是，由于FP16和BF16的尾数位精度不同，转换过程中可能会产生精度损失，尤其是在FP32转换到FP16或BF16时。在实际应用中，舍入和溢出处理策略对于保持数值稳定性和精度至关重要。

总结来说，FP32、FP16和BF16各有其优势和适用场景，选择使用哪种精度格式通常取决于应用对计算速度、精度和数值范围的具体要求。在深度学习领域，FP16和BF16因其在性能和效率上的优势而越来越受到关注。