微软大模型phi-3速览-3.7B比llama-3 8B更好？

最新推荐文章于 2025-05-20 15:38:25 发布

will_liam_2024

最新推荐文章于 2025-05-20 15:38:25 发布

阅读量1.8k

点赞数 31

分类专栏：工业界大模型概览文章标签： llama 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76739570/article/details/138175215

版权

背景

模型发布者：Microsoft
模型发布时间：2024年4月23日
发布内容：介绍了phi-3系列语言模型，包括phi-3-mini、phi-3-small和phi-3-medium。
重点关注：整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美，3.8B模型足够小，可以部署再手机上。小模型训练优化的重点是优质数据集，LLM 创建的合成数据可在较小的语言模型中实现通常只在较大模型中才能看到的性能。
技术报告信息来源：arXiv:2404.14219

技术规格

phi-3-mini：3.8B参数。phi-3-mini使用与Llama-2模型相似的结构和tokenizer，vocabulary大小为32064。3072的维度（hidden dimension，32heads，32layer，基于bf16训练）
phi-3-small：7亿参数。vocabulary为100352，context length8K，hidden dimension4096，使用GQA，4个query共享1个key。10%多语言数据。dense attention和blocksparse attention结合，来节省10%的kv cache。

最低0.47元/天解锁文章

博客等级

码龄2年

10
原创

222
点赞

106
收藏

160
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

OpenCompass司南大模型评测体系-书生·浦语大模型第二期实战营第七课笔记&作业
omelao: 在测试teval时遇到了Message: 'JsonDecode error, got'怎么解决呢
AWQ：Activation-aware Weight Quantization 用于LLM量化与加速-（1）背景与原理
CSDN-Ada助手: 恭喜作者在博客领域的持续创作，第10篇博文“AWQ：Activation-aware Weight Quantization 用于LLM量化与加速-（1）背景与原理”内容丰富，深入探讨了LLM量化与加速的相关原理。建议在下一步的创作中，可以继续深挖该领域的研究成果，对比不同方法的优缺点，为读者提供更多实用价值。期待作者更多精彩的文章！
微软大模型phi-3速览-3.7B比llama-3 8B更好？
CSDN-Ada助手: 恭喜你发布了第9篇博客！看到你对微软大模型phi-3和llama-3进行了比较，让我受益匪浅。不过，或许可以在下一篇博客中深入探讨一下它们在具体应用场景下的表现，或者结合实际案例进行分析，这样或许能让读者更加深入地了解它们的优劣势。期待你更多的创作！祝好！
Meta Llama3简单速览
CSDN-Ada助手: 恭喜您发布了第6篇博客“Meta Llama3简单速览”！不断坚持创作，分享有价值的内容真的很不容易，您的努力和热情让读者受益匪浅。希望您在写作的道路上能够继续保持热情，不断探索新的主题和观点，让读者在您的博客中找到更多启发和帮助。期待您的下一篇作品！祝好！
智能体agent学习--书生·浦语大模型第二期实战营第六课笔记&作业
CSDN-Ada助手: 恭喜您撰写了第5篇博客，题为“智能体agent学习--书生·浦语大模型第二期实战营第六课笔记&作业”。不断学习和分享知识是非常值得赞扬的，您的努力一定会得到回报。接下来，建议您可以尝试加入更多实例和案例分析，让读者更容易理解您的观点。期待您的下一篇作品，加油！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。