20亿参数仅0.4GB，能耗骤降90%！微软开源全球首个2B参数「原生1.58bit」大模型

本文链接：https://blog.csdn.net/soaring_casia/article/details/147423941

导读在 AI 浪潮席卷全球的今天，大型语言模型（LLM）的算力需求日益攀升，高昂的资源成本却让许多场景望而却步。微软研究院最新发布的 BitNet b1.58 2B4T，以 20 亿参数和 1.58 比特量化的极致效率，颠覆传统全精度模型范式，性能媲美顶尖模型，内存占用仅 0.4GB，能耗节省超 90%！

©️【深蓝AI】编译

论文标题：BitNet b1.58 2B4T Technical Report

论文作者：Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

论文链接：https://arxiv.org/pdf/2504.12285

项目主页：https://aka.ms/GeneralAI

代码链接：https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

图1：BitNet b1.58 2B4T 在 3B 参数规模以下的性能与内存占用方面，推进了由领先开源权重模型定义的帕累托前沿，展现出卓越的效率。

1、本文概要

BitNet b1.58 2B4T 由微软研究院团队研发，基于 4 万亿 tokens 训练，采用 1.58 比特量化，将权重约束为 -1、0、+1，内存需求从全精度模型的数 GB 压缩至 0.4GB，推理延迟低至 29ms/token，能耗仅 0.028J。无论是语言理解、数学推理、代码生成还是多轮对话，它都能与 LLaMA 3.2 1B、Qwen2.5 1.5B 等全精度模型媲美。模型权重与推理代码已通过 Hugging Face 开源，为开发者提供无限可能。

这款模型的意义远不止技术突破。它的超低资源需求让 AI 从云端走向手机、物联网等边缘设备，降低部署成本，推动绿色计算与 AI 普惠化。BitNet b1.58 证明，极致量化也能实现顶尖性能，挑战了“高性能需高资源”的传统观念。

2、核心创新

▍BitLinear层，极致压缩的关键

BitNet b1.58 2B4T的“杀手锏”在于用定制的BitLinear层替换了传统的全精度线性层。这个BitLinear层到底有多厉害？来看看它的三大绝招：

1. 权重量化：模型权重在前向传播时被压缩到仅1.58位！通过绝对均值量化，权重被映射到{-1, 0, +1}三个值。这不仅让模型体积大幅缩小，还让计算效率飞起！

2. 激活量化：激活值被量化为8位整数，采用基于每个token的绝对最大值量化策略，兼顾精度与效率。

3. 归一化加持：引入了subln归一化，让模型在量化训练中更稳定，训练过程如丝般顺滑。

▍性能优化核心技术

除了BitLinear层，BitNet b1.58 2B4T还整合了多种成熟技术，让性能和稳定性双双在线：

激活函数：在前馈网络中，模型抛弃了常见的SwiGLU激活，转而使用平方ReLU。这一选择在1位量化环境中能提升模型稀疏性，计算效率再上一层楼。
位置嵌入：采用旋转位置嵌入，为模型注入精准的位置信息，这是高性能大模型的标配。
偏置：参考LLaMA架构，模型去掉了所有线性层和归一化层的偏置项，参数量减少，量化过程更简单。

▍分词器选择

在分词方面，BitNet b1.58 2B4T直接采用了LLaMA 3的字节级字节对编码分词器，词汇表高达128,256个token！这个分词器不仅能轻松应对多样的文本和代码，还因其广泛应用，完美适配现有的开源生态！

3、多阶段训练细节

BitNet b1.58 2B4T的训练过程分为三大阶段：大规模预训练、监督微调（SFT）和直接偏好优化（DPO）。这套高效的训练策略让模型在小体量下也能展现惊人性能！

▍预训练：打下扎实的语言基础

预训练的目标是让模型掌握广泛的世界知识和语言能力。两个阶段主要在学习率调度和权重衰减有重大区别：

学习率调度：第一阶段采用高学习率和余弦衰减，1位模型的稳定性允许更大胆的学习步幅；第二阶段“降温”，骤降学习率，配合余弦调度，专注高质量数据优化。
权重衰减：第一阶段用余弦调度，峰值0.1防止过拟合；第二阶段关闭权重衰减，让模型参数更精细调整。

数据选择：使用公开的文本和代码数据集，如DCLM和FineWeb-EDU，加入合成数学数据增强推理能力。第一阶段处理通用数据，第二阶段聚焦高质量数据集。

▍监督微调：

SFT阶段提升模型的指令遵循和对话能力。使用WildChat、LMSYS-Chat-1M等多样化指令和对话数据集，辅以GLAN、MathScale等合成数据增强推理。优化细节包括：

损失聚合：采用损失求和而非均值，提升收敛效果。
超参数调整：1位模型需要更大胆的学习率和更多训练轮次。
对话模板：采用结构化模板，确保对话任务一致性。

▍直接偏好优化：

DPO阶段通过UltraFeedback和MagPie等偏好数据集，进一步优化模型的帮助性和安全性。训练2轮，学习率2×10^-7，DPO beta设为0.1，结合Liger Kernel库提升效率。DPO让模型生成更符合人类预期的回答，同时保留核心能力。

4、性能评估

BitNet b1.58 在多项基准测试中表现出色，与全精度模型正面交锋。它内存占用仅 0.4GB，推理延迟 29ms/token，能耗节省 90%，效率远超 LLaMA 3.2 1B（1.4GB，41ms/token）等模型。在 ARC-Challenge（49.91%）、GSM8K（58.38%）、WinoGrande（71.90%）等任务中名列前茅，综合得分接近 Qwen2.5 1.5B，远超 Gemma-3。相比其他 1 比特模型，如 Bonsai 0.5B，它平均得分高出近 20%，甚至超越更大的后量化模型。

不过，在知识密集型任务如 TriviaQA 上，模型表现稍弱，可能受数据分布或量化限制影响。未来优化数据集和长上下文支持将进一步提升其能力。