主要内容
- 模型介绍:介绍了BitNet b1.58 2B4T,这是首个20亿参数规模的开源原生1比特大语言模型,在4万亿词元的语料库上进行训练,通过多种基准测试评估其性能,模型权重在Hugging Face上发布,并提供了针对GPU和CPU架构的开源推理实现。
- 模型架构:基于标准Transformer模型和BitNet框架进行修改,核心创新是用自定义的BitLinear层替换标准全精度线性层,对权重和激活值进行量化,还集成了多种提升性能和稳定性的技术,采用LLaMA 3的分词器。
- 训练过程:包含大规模预训练、监督微调(SFT)和直接偏好优化(DPO)三个阶段。预训练使用两阶段学习率和权重衰减策略,在不同阶段使用不同数据;SFT利用多种数据集提升模型指令跟随能力;DPO通过优化偏好数据,使模型行为更符合人类期望。
- 评估结果:在多种基准测试中与相似规模的全精度模型、量化模型和1比特模型对比,BitNet b1.58 2B4T在资源效率上优势显著,性能与领先的全精度模型相当,优于其他1比特模型。
- 推理实现:针对GPU和CPU分别开发了专用的推