微软大模型phi-3速览-3.7B比llama-3 8B更好?

背景

  • 模型发布者:Microsoft
  • 模型发布时间:2024年4月23日
  • 发布内容:介绍了phi-3系列语言模型,包括phi-3-mini、phi-3-small和phi-3-medium。
  • 重点关注:整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,3.8B模型足够小,可以部署再手机上。小模型训练优化的重点是优质数据集,LLM 创建的合成数据可在较小的语言模型中实现通常只在较大模型中才能看到的性能。
  • 技术报告信息来源arXiv:2404.14219

技术规格

  • phi-3-mini:3.8B参数。phi-3-mini使用与Llama-2模型相似的结构和tokenizer,vocabulary大小为32064。3072的维度(hidden dimension,32heads,32layer,基于bf16训练)

  • phi-3-small:7亿参数。vocabulary为100352,context length8K,hidden dimension4096,使用GQA,4个query共享1个key。10%多语言数据。dense attention和blocksparse attention结合,来节省10%的kv cache。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值