Meta豪掷15万亿tokens,Llama 3.1-405B究竟有何过人之处?
前言
Meta AI
在人工智能领域的激烈竞争中,Meta再次掷出重磅炸弹。Llama 3.1-405B的横空出世,不仅震惊了整个AI圈,更让开源大模型的发展迎来了一个新的里程碑。这个拥有4050亿参数的庞然大物,究竟有什么过人之处呢?让我们一探究竟。
15万亿tokens训练规模
Llama 3.1-405B
就在7月23日凌晨,一则关于Llama 3.1-405B评测数据在网络上炸开了锅。15万亿tokens的训练规模让大家十分的期待 Llama 3.1-405B 的表现。
Llama 3.1-405B最引人注目的特性之一,莫过于其128k的上下文长度。这一数字较之前的版本整整扩大了16倍,意味着模型可以处理更长、更复杂的输入,从而在长文本理解和生成方面展现出惊人的能力。
不仅如此,Llama 3.1-405B还支持多语言输入输出,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。这种多语言能力的加持,无疑将大大拓展其应用场景,为全球用户提供更加便利的AI服务。
性能表现
性能对比
在基准测试中,Llama 3.1-405B展现出了十分优秀的表现。在GSM8K、Hellaswag、boolq、MMLU-humanities等多项测试中,它不仅超越了同类开源模型,甚至在某些方面超过了GPT-4o这样的商业巨头。特别值得一提的是,Llama 3.1-405B在解决之前很火的"9.11 > 9.9"的陷阱题时也没有出现错误。
而如此强大的模型,训练时累计使用了3900万GPU小时的计算时间,其中仅405B版本就占用了3100万GPU时。这种级别的算力投入,即便对于Meta这样的科技巨头来说,也是一笔不小的开支。
总结
这次Llama 3.1-405B的发布,仿佛就像是Mate在向世界宣告:开源的力量不可小觑,AI的未来,必将是开放、共享、共同进步的未来。
厚德云是一款专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。