大模型世界观-CSDN博客

原创微软Phi系列——教科书级合成数据的力量

Phi系列的开山之作，主要面向code任务（Python语言），用极小的模型（1.3B），极少的预训练数据（7B）和可控的训练时长（8*A100，4days），达到比较好的code效果。Phi-1的续作，主要面向常识推理任务，用极小的模型（1.3B），极少的预训练数据（30B）和可控的训练时长（8*A100，4days），达到与10x模型相当的效果。微软的研究人员在Phi系列的探索越走越远，小模型的研究可以帮助人们更快的理解、验证LLM的机理；同时，小模型在生产应用，推理速度方面也有着大模型无可比拟的优势。

2024-01-16 22:54:03 1800

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 微软Phi系列——教科书级合成数据的力量

空空如也

空空如也

原创微软Phi系列——教科书级合成数据的力量