DeepSeek 模型精度 Float16 Bfloat16 w8a8数据类型

16,8和4位浮点数是如何工作的

1. W8A8 的定义

W8A8 代表 权重(Weights)和激活值(Activations)均被量化为 8 位(INT8 或 UINT8),常用于深度学习推理,以减少模型的存储、计算需求,并提升硬件执行效率。

W8(8-bit Weights):将神经网络的权重从 32 位浮点(FP32)转换为 8 位整数(INT8)。
A8(8-bit Activations):将神经网络的激活值从 32 位浮点(FP32)转换为 8 位整数(INT8)。
W8A8 量化主要用于 卷积神经网络(CNNs)和 Transformer 模型,适用于推理任务,如图像分类、目标检测和自然语言处理(NLP)。

w8a8是一种8位浮点数格式,全称为Floating Point 8-bit。它使用8位来表示浮点数数据类型。w8a8的结构包括1位符号位、4位指数位和3位尾数位(E4M3变体),或者1位符号位、5位指数位和2位尾数位(E5M2变体)‌。这种格式适用于需要高效率和低精度的场景,如深度学习中的模型推理‌工作中。

2. 典型数据格式的分布图
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值