Meta Llama 3最强开源大模型!

作者 | 绝密伏击  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/693466873

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心大语言模型技术交流群

本文只做学术分享,如有侵权,联系删文

本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3。

目前发布了两个模型,分别是8B(80亿参数)和70B(700亿参数)的预训练及指令微调语言模型。

fba6b319085da0ddee3c493aa3a11a88.png

话不多说,先看一下Llama 3-70B的效果(体验地址:https://huggingface.co/chat/conversation)。

08e90fb20874b67401bb54333a6ef044.png 749b500e04c888f8736465e91307e30a.png

微积分计算,效果拉满。

评测结果:遥遥领先

Llama 3 在推理、代码生成和指令遵循等方面的能力大大提高。

Meta官方数据显示,Llama 3 8B和70B版本在各自参数规模上超越一众对手。

8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct。

而70B模型则超越了闭源Claude 3 Sonnet,和谷歌的Gemini Pro 1.5性能相当。

Instruction tuned models

abd8f110eb7752e21e79bad43dd11bb4.png 5f77f973b6e2300bb62582dbef183dcf.png

Human evaluation

Meta 还开发了一套新的高质量人类评估数据集。这个评估集包含1800个提示,覆盖了12个关键用例:寻求建议、头脑风暴、分类、封闭式问题回答、编程、创意写作、信息提取、扮演角色/人物、开放式问题回答、推理、改写和总结。为了防止模型在这套评估集上意外过拟合,即使是Meta自己的大模型团队也无法访问它。

下面的图表展示了这些类别和提示上的人类评估的汇总结果,与Claude Sonnet、Mistral Medium和GPT-3.5进行了比较。

结果,Llama 3不仅大幅超越Llama 2,也战胜了Claude 3 Sonnet、Mistral Medium和GPT-3.5这些知名模型。

f79498dd8a42a77322a8f61933f82623.png 16018d81298eb4b80a43e10724e57b86.png
人工评测:1800条评测数据分布

Base pretrained models

Llama 3的预训练模型同样表现出色,下图是 Llama 3 预训练模型和其他同等规模模型的比较,Llama 3成为新SOTA。

4bf004a155d2b8890d3177acbada7d0b.png 3fae063dcef3592032794e01cc96d977.png

模型架构

Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:

Llama 3 使用具有 128K token 词汇表的 tokenizer,而Llama 2的词表大小只有 30k;
为了提高 Llama 3 模型的推理效率,Meta 采用了**分组查询注意力 (GQA)**;
支持 8k 的上下文长度(这个稍微弱一点,Qwen这些都是支持32k以上)。

训练数据

Llama 3 在超过 15T(万亿)token 上进行了预训练,所有这些 token 都是从公开可用的来源收集的。

Llama 3的训练数据集是 Llama 2 所用数据集的7倍,并且包含了4倍多的代码。在多语言方面,Llama 3 预训练数据集的 5% 以上由涵盖 30 多种语言的高质量非英语数据组成。

a7921496404d7092d8d9c4cbb1478ab6.png

扩大预训练

为了有效利用 Llama 3 模型的预训练数据,Meta 投入了大量精力来扩展预训练。

具体来说,Meta 为下游基准评估制定了一系列详细的扩展法则。这些扩展法则使 Meta 能够选择最佳的数据组合,并就如何最好地使用训练计算做出明智的决策。

重要的是,扩展法则使 Meta 能够在实际训练模型之前预测最大模型在关键任务上的性能(例如,在 HumanEval 基准上评估的代码生成性能)。这有助于确保最终模型在各种用例和功能上都具有强大的性能。

对于一个 8B 参数模型,Chinchilla 最优的训练计算量对应于约 200B token,但 Meta 发现即使在模型训练了两个数量级更多的数据之后,模型性能仍在继续提高

在对多达 15T token 进行训练后,8B 和 70B 参数的模型都继续以对数线性的方式提升性能。较大的模型可以用较少的训练计算来匹配较小模型的性能,但较小的模型通常是首选,因为它们在推理过程中效率更高。

Meta 透露,它们使用自定义训练库、Meta 的超级集群和生产集群预训练 Llama3。微调、注释和评估在第三方云计算上进行。

预训练是在 H100-80GB 类型的硬件(TDP 为 700W)上累计 770 万个 GPU 小时的计算。

为了训练最大的 Llama 3 模型,Meta 结合了三种类型的并行化:数据并行化、模型并行化和管道并行化。

当同时在 16K GPU 上进行训练时,Meta 最高可实现每个 GPU 超过 400 TFLOPS 的计算利用率。Llama3 是在两个定制的 24K GPU 集群上进行了训练。Llama 3 的训练效率比 Llama 2 提高了约三倍

7f7c0024b7e8ed1acb2986f983565f95.png

指令微调

为了充分挖掘预训练模型在聊天场景的潜力,Meta 还对指令微调方法进行了创新。

Llama 3 后训练方法用的是有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合

在 SFT 中使用的 prompt 和在 PPO 和 DPO 中使用的偏好排名对模型的性能有着巨大的影响。

Llama 3 此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和coding任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择它。对偏好排序的训练使模型能够学习如何选择正确答案。

部署 Llama 3

Llama 3将很快在所有主要平台上发布,包括云服务提供商、模型API提供商等更多平台。Llama 3将无处不在。

基准测试表明,Llama 3的 tokenizer 提供了更高的分词效率,与 Llama 2 相比,token 生成量最多可减少 15%。此外,Group Query Attention(GQA)现在也已添加到Llama 3 8B中。尽管与Llama 2 7B相比,Llama 3 8B 模型多了1B的参数,但改进的 tokenizer 和 GQA 有助于保持与 Llama 2 7B 相当的推理效率。

Llama 3 下一步计划

8B 和 70B 只是 Llama 3 的开端,Llama 系列未来还将有更多模型问世。

目前,Meta 最大的 400B 模型还在训练中,但在接下来的几个月中也将陆续发布,新功能包括多模态、多语言对话能力、更长的上下文窗口以及更强的整体能力。

一旦完成 Llama 3 的训练,Meta 还将发表一篇详细的研究论文。

47741615fc49dac4e4b62dae5fd9738b.png

不出意外,Llama 3 400B 是 MOE 架构。有关 MOE 的具体细节,可以参考下面的一篇文章。

https://zhuanlan.zhihu.com/p/677638939

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

7f0f3d1b7d9496a3f58ab9701df1aabb.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

fa03dd40123d39d02bbffaeaa28b890a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

3d6b09d9f162da93fa007a992b59eff5.jpeg

④【自动驾驶之心】全平台矩阵

150d81b3c2d1b3e03e44ad0df6259166.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值