背景
- 模型发布者:Microsoft
- 模型发布时间:2024年4月23日
- 发布内容:介绍了phi-3系列语言模型,包括phi-3-mini、phi-3-small和phi-3-medium。
- 重点关注:整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,3.8B模型足够小,可以部署再手机上。小模型训练优化的重点是优质数据集,LLM 创建的合成数据可在较小的语言模型中实现通常只在较大模型中才能看到的性能。
- 技术报告信息来源:arXiv:2404.14219
技术规格
-
phi-3-mini:3.8B参数。phi-3-mini使用与Llama-2模型相似的结构和tokenizer,vocabulary大小为32064。3072的维度(hidden dimension,32heads,32layer,基于bf16训练)
-
phi-3-small:7亿参数。vocabulary为100352,context length8K,hidden dimension4096,使用GQA,4个query共享1个key。10%多语言数据。dense attention和blocksparse attention结合,来节省10%的kv cache。