开源大模型Llama 3 横空出世,4000亿参数性能直逼GPT-4

170 篇文章 0 订阅
170 篇文章 0 订阅
Meta的Llama3模型,参数量达到400亿,超越GPT-4,凭借强大的性能和多模态能力,集成于Instagram、WhatsApp等应用,并开源供开发者使用。模型的安全性和负责任使用得到强化,MetaAI展示了其在AI领域的领导地位。
摘要由CSDN通过智能技术生成

 9c0daf069d727f8b5b7821a2b32f5b0e.jpeg

开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4

   

扎克伯格:「有了 Llama 3,全世界就能拥有最智能的 AI。」

ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。

d243b2220795d4dfa217d6731685ae4c.jpeg

扎克伯格在 Facebook 上发帖:Big AI news today.

借助先进的 Llama 3 模型,Meta 的 AI 助手已全面升级,现已无缝集成于 Instagram、WhatsApp 和 Facebook 等 Meta 全系应用中。此外,Meta 推出了一个突破性的图像生成器,可将自然语言提示词转化为令人惊叹的图像。

Meta AI 网址:https://www.meta.ai/

9369c2246bb8d424a1b5d6107191b071.jpeg

扎克伯格表示,Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。

通过 Meta AI,用户现可在 Facebook、Instagram、WhatsApp 和 Messenger 上搜索信息,无需在应用之间切换。这项创新功能简化了信息获取,让您在熟悉的平台上即可轻松获取所需内容。

当你浏览信息流的时候,还可以直接从帖子中向 Meta AI 询问更多信息:

现在,你可以通过 WhatsApp 使用 Imagine 功能,利用文本实时生成图像。该功能现已在美国的 WhatsApp 和 Meta AI 网络体验版上推出测试。

开始打字时,你会看到一个图像出现,每多输入几个字母,图像都会发生变化:

Meta 的 Lambda 3 模型在关键基准测试中超越对手,在代码生成等任务上占据主导地位。其强大的推理能力、精准指令遵循以及可视化思维,使之能够解决复杂难题,为人工智能的研究和应用开辟新的可能性。

简而言之,Llama 3 的主要亮点包括:

  • 凭借超过 15T 的庞大训练数据集,这款 AI 模型蕴藏着非凡的潜力,相当于热门的 Llama 2 数据集的 7 倍以上。
  • 在大量重要基准中均具有最先进性能;
  • 新能力范畴,包括增强的推理和代码能力;
  • 训练效率比 Llama 2 高 3 倍;
  • 增强网络安全防护,提升业务信心。
    新升级的Trust & Safety套件,融合了Llama Guard 2、Code Shield和CyberSec Eval 2,为您的系统提供多重保护,抵御网络威胁,确保业务安全无忧。

Meta AI 助手现已集成先进的 8B 和 70B Llama 3 模型,并已开源分享给开发者。这些预训练和微调模型赋能开发者构建更智能的 AI 应用程序。

体验LLaMA语言模型的强大功能,立即下载:https://llama.meta.com/llama-downloads/

Github:https://github.com/meta-llama/

4f97bf94eb64d3cddc77794318a6cb1a.jpeg

Meta 研究科学家 Aston Zhang 揭开大型语言模型 Llama 3 的研发历程:
面对预训练、人类数据、扩展性、长上下文、后训练和评估的重重挑战,研究团队经历了一段考验与兴奋交织的旅程,成就了 Llama 3 的诞生。

解锁 Llama 3 的秘密:
Meta 的研究团队将通过深入的视频系列,揭示 Llama 3 背后的尖端技术。此外,有关 Llama 3 的研究论文即将发布,提供深入的技术见解。

Llama 3,性能重回王座

ea269dded0780154a3fecceb79cc077e.jpeg

此外,Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

066f54930678066af32ef57d7bf5c700.jpeg

779c6bb636fd130f0456ca2a1cc955dc.jpeg

模型架构

训练数据

74dcd8e133511727e6b894308abc47e6.jpeg

为了训练最好的语言模型,管理大型、高质量的训练数据集至关重要。Meta 在预训练数据上投入了大量成本。Llama 3 使用超过 15T 的 token 进行了预训练,这些 token 都是从公开来源收集的。

总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。但是,Llama 3 在这些语言上的性能水平预计不会与英语相同。

扩展预训练

大型语言模型的性能与训练数据和参数数量呈对数线性增长。8B 和 70B 模型尽管训练计算量较少,仍可匹配较小模型的性能。然而,较小模型推理效率更高,通常为首选。

b7ce63ad899102d0cbe43b4c3c4ba824.jpeg

融合 Meta 定制训练集、超级集群和生产集群,驱动 Llama3 语言模型的预训练。第三方云计算平台则用于微调、注释和评估,确保模型的高效性。

凭借 H100-80GB 硬件的强劲算力,在消耗 700W TDP 的前提下,投入 770 万个 GPU 小时,完成了预训练任务。

Meta 采用三种并行化手法训练出性能强大的 Llama 3 模型,包括:数据并行化,模型并行化,管道并行化。

Meta 利用先进的训练堆栈提升了 AI 模型训练效率。在 16K GPU 上训练时,每个 GPU 的计算利用率最高可达 400 TFLOPS。Llama3 接受了两个定制 24K GPU 集群的训练,实现高正常运行时间。Meta 设计了错误检测和维护自动化流程,并增强了硬件可靠性和静默数据损坏检测。此外,可扩展存储系统减少了检查点和回滚时的开销,提升了训练速度和可靠性。

这些改进使总体有效训练时间超过 95%。

指令微调

Meta采用先进的指令微调技术,优化其预训练模型Llama 3在聊天场景中的性能。该方法结合了监督微调、拒绝采样、近端策略优化和直接策略优化。其中,高品质提示和偏好排序至关重要,确保模型与人类交流保持一致。

借助 PPO 和 DPO 从偏好排序中学习,Llama 3 在推理和编码任务中取得显著提升。即使面对模型难以回答的问题,它也能做出合理的推理推论。这归因于偏好排序训练,它教会模型正确选择答案,即使此前无法识别正确选项。

使用 Llama 3

Meta 发布了新的信任与安全工具,提升平台安全。Llama Guard 2 和 Cybersec Eval 2 的增强组件加强了恶意内容检测。此外,Code Shield 作为一道防护,有效过滤有害代码。这些工具共同保护用户免受网络威胁。

借助 torchtune,Meta 开发了 Llama 3,一个强大的语言模型。torchtune 是一个开创性的 PyTorch 原生库,旨在简化 LLM 的创作、微调和实验,让开发人员能够轻松利用 LLM 的强大功能。

使用 torchtune,轻松提升您的 PyTorch 训练!
这款内存高效的训练库采用全 PyTorch 架构,无缝集成于流行平台(如 Hugging Face、Weights & Biases 和 EleutherAI)。此外,Executorch 支持在移动和边缘设备上实现高效推理,释放训练潜力,提升您的 AI 应用。

利用 Meta 的指南,轻松掌握大规模 AI 部署。从快速工程到将 Llama 3 与 LangChain 结合使用,我们提供步骤,帮助您高效地扩展 AI 解决方案。

安全改进

Meta 以系统级方法负责任地部署 Llama,赋能开发者主导开放式语言模型的开发。Llama 作为系统基础,可根据开发者目标定制设计。

e76c45bf08678e9755009d89e02e71e3.jpeg

指令微调为模型安全性提供了强大保障。Meta 与内部和外部团队合作,对指令微调模型进行了严格的红队评估,确保了它们的安全性。

通过使用 "红队" 方法,我们运用专家知识和自动化技术生成对抗性提示,测试 AI 模型的滥用风险。我们进行广泛的测试,涵盖化学、生物、网络安全等领域。该过程是持续的,确保模型发布后得到安全完善。

Llama Guard 模型旨在为及时响应安全奠定基础,并可根据应用需求轻松微调以创建新的分类标准。作为起点,新版 Llama Guard 2 采用了最近公布的 MLCommons 分类标准。此外,CyberSecEval 2 在其前身的基础上进行了扩展,增加了对 LLM 允许滥用其代码解释器的倾向、攻击性网络安全能力以及对提示注入攻击的易感性的测量。最后,Meta 将推出代码盾(Code Shield),它增加了对 LLM 生成的不安全代码进行推理时过滤的支持。这可以降低不安全代码建议、代码解释器滥用预防和安全命令执行方面的风险。

为了负责任地使用 LLM,Meta 更新了《负责任使用指南》,提供全面的指导。指南要求根据适当的内容指南审查输入输出。此外,云服务提供商提供内容审核 API 和工具,鼓励开发人员使用这些工具进行负责任的部署。

大规模部署 Llama 3

Llama 3 即将在所有主要平台上推出,包括云提供商、模型 API 提供商等。

Tokenizer 提速 15%,提升 token 化效率,同时 GQA 已加入 Llama 3 8B,增强了大型语言模型的能力。

尽管模型参数增加了1B个,但优化后的tokenizer和GQA上的改进协同作用,使该模型的推理效率与Llama 2 7B保持同等水平。

探索 Llama Recipes 开源知识宝库,了解利用 Meta Llama 功能的专家指南。从微调到部署再到模型评估,我们的示例涵盖所有方面,助您释放 AI 的潜力。

下一步是什么?

Llama 3 系列强势开启,引领大型语言模型新时代!首发 8B 和 70B 震撼登场,敬请期待更多惊喜。

Meta 推出「最大的 Llama 3」语言模型,参数量激增至 400B+。该模型具备多模态和多语言对话能力,上下文窗口更广,整体性能更为强大。随着模型训练的持续推进,Meta 将在未来几个月内陆续发布新功能,提升 AI 语言处理的能力。

一旦完成 Llama 3 的训练,Meta 还将发表一篇详细的研究论文。

0120c500f15ff338cde988feaea913fa.jpeg

Llama 3 即将发布的 400B+ 版本将带来突破性的增强。它预计将匹敌 GPT-4 的功能,为开源社区提供一个同类领先的大语言模型。

a8c014a91b1a0c3f0b90f9a5d8ff981e.jpeg

Jim Fan 整理的 Llama3 400B 与 GPT-4 等模型的比分。

也许只有 OpenAI 的 GPT-5 才能压下开源模型了。

17dcd57f558aa7bc2a7204a37d79350d.jpeg

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

  • 13
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科技互联人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值