开源首次超越GPT-4o,Llama 3.1超大杯405B跑分泄露,下载链接已出

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

最强开源大模型Llama 3.1,漏成筛子了。

Llama-3.1-405B超大杯版本,在来自微软Azure-ML GitHub账户的多项评测中超越GPT-4o,甚至70B版本也能和GPT-4o打个有来有回。

附加说明中强调,这还是base模型的评测结果,经过对齐训练的instruct模型分数还可能提高

06dcdcb4160557bd7d0535629bc356c6.png

并且,下载链接、模型卡(包含官方跑分结果)、配置文件通通泄露,虽然未经官方证实,还是引起大量讨论。

70621201013315471edd0075203fe498.png

如果数据准确,那么最强开源大模型,就是最强大模型了

与此同时,来自ICML现场的消息,3.1系列模型将于7月23日(北京时间7月24日)正式发布,PyTorch创始人Soumith Chintala在演讲中确认。

Llama 3.1亮点总结

根据泄露版模型卡,Llama 3.1亮点如下:

  • instruct模型针对多语言对话进行了优化,明确宣传了“以多语言文本和代码作为输出模式”。

  • 每个版本的上下文窗口都从8k增加到128K,足足扩大16倍。

  • 训练在 H100-80GB上累计使用了3900万GPU时,其中8B为150万,70B为700万,最大头405B占用3100万GPU时。

  • 在来自公开数据的约15万亿tokens上训练。微调数据包括公开可用的指令数据集,以及超过2500万个合成数据示例


    edbbc8862b46f49a62151b7c66bc2547.png

Llama 3.1版本日前刚刚曝光,不仅超大杯版405B将发布,此前已经发布的Llama 3 8B和70B型号也会升级到3.1版本

为了更直观展示升级幅度,Smol AI团队根据目前泄露版模型卡中的数据制作了对比表格。

  • 对于8B中杯,3.1相对3.0有大幅提升,似乎在更难的任务上提升幅度更大。

  • 对于70B大杯,3.1版本仅在数学和API调用上提升较大。

  • 并不存在3.0-405B,而蒸馏得出的3.1-70B并不比超大杯405B落后太多。

  • 对于405B超大杯,对比闭源旗舰模型还有差距,与微软Azure-ML版本的测试结果不同。

目前还缺少长上下文利用方面的评估,以及视觉理解方面的评估(多模态版本推迟了)。

ee6de84dc9bbb2e3244735ee9642f6f8.png

根据泄露的磁力链接,405B模型权重将占用820GB硬盘空间

配置文件中则声明原生精度为bf16,而根据此前泄露的HuggingFace仓库,将会发布FP8官方量化版

384e9a6fb39cebcc733609edcdafb04c.png

新开源协议:可以使用Llama 3改进其他模型

还有人对比了随Llama 3.1而来的新开源协议全文,从中也发现惊喜:

取消了禁止使用Llama 3改进其他模型的规定。

50db4486468a4241f71c240b779a7168.png

不过也随之附加了一条规定:

所有使用Llama输出结果训练、微调或以其他任何方式改进的模型,都应在模型名称的开头包含“Llama”。

718083cfa6420a10cd7992bdea751b6f.png

OpenAI还有后手?

鉴于OpenAI有拿新品狙击同行的事迹。

比如用Sora狙击Gemini 1.5 Pro,GPT-4o和《Her》模式狙击谷歌Astra……

这次GPT-4o的SOTA地位遭到挑战,如果OpenAI手里有货很难不出手吧。

目前,奥特曼个人账号沉寂了一个周末之后,已经开始预热。‍‍

7941eda20e5976cf14441de685de2f47.png

本周也将是大模型狂欢的一周。

参考链接:
[1]https://pastebin.com/clone/9jGkYbXY
[2]https://x.com/Teknium1/status/1815443354735571232
[3]https://x.com/swyx/status/1815553411808653513

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

55b1c792b4d79b0b52f23cb4cf0d373d.png

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值