Meta豪掷15万亿tokens，Llama 3.1-405B究竟有何过人之处？

最新推荐文章于 2024-11-03 11:46:46 发布

厚德云

最新推荐文章于 2024-11-03 11:46:46 发布

阅读量412

点赞数 3

文章标签： llama 人工智能云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/holdcloud/article/details/140636642

版权

Meta豪掷15万亿tokens，Llama 3.1-405B究竟有何过人之处？

前言

QQ截图20240717143114.png

Meta AI

在人工智能领域的激烈竞争中，Meta再次掷出重磅炸弹。Llama 3.1-405B的横空出世，不仅震惊了整个AI圈，更让开源大模型的发展迎来了一个新的里程碑。这个拥有4050亿参数的庞然大物，究竟有什么过人之处呢？让我们一探究竟。

15万亿tokens训练规模

QQ截图20240723145821.png

Llama 3.1-405B

就在7月23日凌晨，一则关于Llama 3.1-405B评测数据在网络上炸开了锅。15万亿tokens的训练规模让大家十分的期待 Llama 3.1-405B 的表现。

Llama 3.1-405B最引人注目的特性之一，莫过于其128k的上下文长度。这一数字较之前的版本整整扩大了16倍，意味着模型可以处理更长、更复杂的输入，从而在长文本理解和生成方面展现出惊人的能力。

不仅如此，Llama 3.1-405B还支持多语言输入输出，包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。这种多语言能力的加持，无疑将大大拓展其应用场景，为全球用户提供更加便利的AI服务。

性能表现

QQ截图20240723145418.png

性能对比

在基准测试中，Llama 3.1-405B展现出了十分优秀的表现。在GSM8K、Hellaswag、boolq、MMLU-humanities等多项测试中，它不仅超越了同类开源模型，甚至在某些方面超过了GPT-4o这样的商业巨头。特别值得一提的是，Llama 3.1-405B在解决之前很火的"9.11 > 9.9"的陷阱题时也没有出现错误。

而如此强大的模型，训练时累计使用了3900万GPU小时的计算时间，其中仅405B版本就占用了3100万GPU时。这种级别的算力投入，即便对于Meta这样的科技巨头来说，也是一笔不小的开支。

总结

这次Llama 3.1-405B的发布，仿佛就像是Mate在向世界宣告：开源的力量不可小觑，AI的未来，必将是开放、共享、共同进步的未来。

厚德云是一款专业的AI算力云平台，为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。