开源首次超越GPT-4o，Llama 3.1超大杯405B跑分泄露，下载链接已出

QbitAl

于 2024-07-23 10:51:37 发布

阅读量12

点赞数

文章标签： llama

版权

最强开源大模型Llama 3.1，漏成筛子了。

Llama-3.1-405B超大杯版本，在来自微软Azure-ML GitHub账户的多项评测中超越GPT-4o，甚至70B版本也能和GPT-4o打个有来有回。

附加说明中强调，这还是base模型的评测结果，经过对齐训练的instruct模型分数还可能提高。

并且，下载链接、模型卡（包含官方跑分结果）、配置文件通通泄露，虽然未经官方证实，还是引起大量讨论。

如果数据准确，那么最强开源大模型，就是最强大模型了。

与此同时，来自ICML现场的消息，3.1系列模型将于7月23日（北京时间7月24日）正式发布，PyTorch创始人Soumith Chintala在演讲中确认。

根据泄露版模型卡，Llama 3.1亮点如下：

Llama 3.1版本日前刚刚曝光，不仅超大杯版405B将发布，此前已经发布的Llama 3 8B和70B型号也会升级到3.1版本。

为了更直观展示升级幅度，Smol AI团队根据目前泄露版模型卡中的数据制作了对比表格。

目前还缺少长上下文利用方面的评估，以及视觉理解方面的评估（多模态版本推迟了）。

根据泄露的磁力链接，405B模型权重将占用820GB硬盘空间。

配置文件中则声明原生精度为bf16，而根据此前泄露的HuggingFace仓库，将会发布FP8官方量化版。

还有人对比了随Llama 3.1而来的新开源协议全文，从中也发现惊喜：

取消了禁止使用Llama 3改进其他模型的规定。

不过也随之附加了一条规定：

所有使用Llama输出结果训练、微调或以其他任何方式改进的模型，都应在模型名称的开头包含“Llama”。

鉴于OpenAI有拿新品狙击同行的事迹。

比如用Sora狙击Gemini 1.5 Pro，GPT-4o和《Her》模式狙击谷歌Astra……

这次GPT-4o的SOTA地位遭到挑战，如果OpenAI手里有货很难不出手吧。

目前，奥特曼个人账号沉寂了一个周末之后，已经开始预热。‍‍

本周也将是大模型狂欢的一周。

参考链接：
[1]https://pastebin.com/clone/9jGkYbXY
[2]https://x.com/Teknium1/status/1815443354735571232
[3]https://x.com/swyx/status/1815553411808653513

— 完 —

量子位年度AI主题策划正在征集中！

欢迎投稿专题 一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

QbitAl

关注