Llama 3 CPU推理优化指南

新缸中之脑

于 2024-05-24 08:08:44 发布

阅读量1.9k

点赞数 11

文章标签： llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shebao3333/article/details/139161659

版权

备受期待的 Meta 第三代 Llama 现已发布，我想确保你知道如何以最佳方式部署这种最先进的 (SoTA) LLM。在本教程中，我们将重点介绍如何执行仅权重量化 (WOQ) 来压缩 8B 参数模型并改善推理延迟，但首先，让我们讨论一下 Meta Llama 3。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、Llama 3

到目前为止，Llama 3 系列包括从 8B 到 70B 参数的模型，未来还会有更多版本。这些模型附带宽松的 Meta Llama 3 许可证，建议你在接受使用它们所需的条款之前先查看一下。这标志着 Llama 模型系列和开源 AI 的一个激动人心的篇章。

1.1 架构

Llama 3 是一个基于仅解码器transformer的自回归 LLM。与 Llama 2 相比，Meta 团队做出了以下显著改进：

采用分组查询注意 (GQA)，提高了推理效率。
优化的标记器，词汇量为 128K 个标记，旨在更有效地编码语言。
在 15 万亿个标记数据集上进行训练，这比 Llama 2 的训练数据集大 7 倍，代码量多 4 倍。

下图（图 1）是 print(model) 的结果，其中 mo

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。