1. W8A8 的定义
W8A8 代表 权重(Weights)和激活值(Activations)均被量化为 8 位(INT8 或 UINT8),常用于深度学习推理,以减少模型的存储、计算需求,并提升硬件执行效率。
W8(8-bit Weights):将神经网络的权重从 32 位浮点(FP32)转换为 8 位整数(INT8)。
A8(8-bit Activations):将神经网络的激活值从 32 位浮点(FP32)转换为 8 位整数(INT8)。
W8A8 量化主要用于 卷积神经网络(CNNs)和 Transformer 模型,适用于推理任务,如图像分类、目标检测和自然语言处理(NLP)。
w8a8是一种8位浮点数格式,全称为Floating Point 8-bit。它使用8位来表示浮点数数据类型。w8a8的结构包括1位符号位、4位指数位和3位尾数位(E4M3变体),或者1位符号位、5位指数位和2位尾数位(E5M2变体)。这种格式适用于需要高效率和低精度的场景,如深度学习中的模型推理工作中。
2. 典型数据格式的分布图





