最强开源大模型一夜封神！Llama 3.1震撼发布，真正的全民GPT-4时代来了

辣卤牛肉面

于 2024-07-25 22:19:22 发布

阅读量282

点赞数 3

文章标签：开源 llama langchain 人工智能数据挖掘科技

本文链接：https://blog.csdn.net/2301_76168381/article/details/140701305

版权

榨干16000块H100、基于15万亿个Tokens训练。

昨夜，Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B，同时发布了全新升级的Llama 3.1 70B和8B模型。

Llama 3.1 405B支持上下文长度为128K Tokens，在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练，这也是Meta有史以来第一个以这种规模进行训练的Llama模型。

研究人员基于超150个基准测试集的评测结果显示，Llama 3.1 405B可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等业界头部模型媲美。

除了性能强劲外，Meta创始人兼CEO马克·扎克伯格还亲自发文助阵，他称，除了比闭源模型成本和性能更优，405B开源模型将成为企业微调和训练较小模型的最佳选择。

Meta AI宣布接入Llama 3.1 405B，并推出AI图片编辑、AI编程、VR/AR设备智能助手等新功能。扎克伯格预测， Meta AI助手使用率几个月后将超越ChatGPT。

▲Meta AI支持Quest头显与用户实时音视频交互

Meta的开源生态圈也已准备就绪。Meta与超过25个合作伙伴将提供Llama 3.1模型，包括亚马逊AWS、英伟达、Databricks、Groq、戴尔、微软Azure和谷歌云等。

迄今为止，所有Llama模型版本的总下载量已经超过3亿次，与主流闭源模型能力相当的Llama 3.1模型发布或许意味着，Meta要讲的开源模型故事刚刚开始……

模型下载链接：

https://llama.meta.com/

https://huggingface.co/meta-llama

论文链接：

https://t.co/IZqC6DJkaq

▲Meta Llama 3.1模型论文解读摘要

01.

405B开源模型对标GPT-4o

25家合作伙伴已就绪

Meta评估了超150个基准数据集的性能，Llama 3.1 405B在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中，可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。

在现实场景中，Llama 3.1 405B进行了与人工评估的比较，其总体表现优于GPT-4o和Claude 3.5 Sonnet。

升级后的Llama 3.1 8B和70B模型，相比于同样参数大小的模型性能表现也更好，这些较小参数的模型支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用，以支持实现更高级应用。

Meta更新了许可证，允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。

同时，Meta的开源生态进一步扩张，已经有超过25个企业推出了Llama 3.1新模型。

其中，亚马逊云科技、Databricks和英伟达正在推出全套服务，以支持开发人员微调和训练自己的模型。AI芯片创企Groq等为Meta此次发布的所有新模型构建了低延迟、低成本的推理服务。

同时这些模型将在亚马逊云科技、微软Azure、谷歌云、Oracle等主要云平台上提供服务。

Scale AI、戴尔、德勤等公司已准备好帮助企业采用Llama模型并使用自己的数据训练定制模型。

Llama 3.1 405B不仅是最强开源模型，还有望成为最强模型，开源和闭源的距离再次大大缩短。

02.

完整优化训练堆栈

专注于让模型可扩展

为了能基于15万亿个Tokens进行模型训练，同时在合理时间内实现研究人员想要的效果，Meta对训练堆栈进行了完整优化。

在解决上述难题方面，Meta选择专注于保持模型开发过程可扩展并更直接的策略：

1、研究人员选择了标准仅解码器的Transformer模型架构进行小幅调整，而不是采用MoE混合专家模型，可以最大限度提高训练稳定性。

2、研究人员采用了迭代的后训练程序，每轮都使用监督微调和直接偏好优化。这使模型能够为每一轮创建最高质量的合成数据，并提高每项能力的性能。

与此前Llama系列模型相比，Meta改进了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理pipelines、开发更严格的质量保证，以及训练后数据的过滤方法。

正如大语言模型的Scaling Laws（规模定律）所预期的那样，Meta新旗舰模型优于使用相同策略训练的较小模型。Meta还使用405B参数的模型提高了其较小模型的训练质量。

同时，为了支持405B参数模型的大规模推理，研究人员将模型从BF16到FP8进行了量化，有效降低了所需的计算要求，并允许模型在单个服务器节点内运行。

在指令和聊天微调方面，研究人员通过在预训练模型之上进行几轮对齐以生成最终模型，每一轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO），其使用合成数据生成来生成绝大多数SFT示例以生成所有功能中更高质量的合成数据。

此外，Meta采取了多种数据处理技术以将这些合成数据过滤到最高质量，这使新模型能够跨功能扩展微调数据量。

在数据方面，研究人员还对数据进行了仔细平衡以生成具有所有功能的高质量模型。例如，在短上下文基准上保证模型质量，使其能扩展到128K上下文长度。

此外，Meta还宣布推出一个整体的Llama系统。该系统除了涵盖Llama模型，还涉及多个组件协调及外部工具调用，以此助开发者开发比基础模型更强的定制产品。

Llama系统将涵盖一系列新组件，包括开源新的安全工具如Llama Guard 3（多语言安全模型）和Prompt Guard（即时注入过滤器）。为了让分散的组件联接起来，Meta还发布了对Llama Stack API的评论请求，这是一个标准接口，以此第三方项目更轻松地利用Llama模型。

对于普通开发者来说，使用405B规模的模型仍是一项挑战，这需要大量的计算资源和专业知识。

基于Llama系统，生成式AI开发不仅仅是提示模型，每个人都应该可以利用405B模型完成更多的任务，包括实时和批量推理、监督微调、针对特定应用评估模型、持续预训练、检索增强生成（RAG）、函数调用、合成数据生成等。

这是Meta迄今为止推出的最大模型，未来将推出更多设备友好的尺寸、更多模式以及在Agent层面的更新。

03.

405B大模型爆改Meta AI

Quest智能语音助手升级

现在，Meta旗下的多个终端，比如WhatsApp和Meta AI聊天机器人中都开始使用Llama 3.1 405B。

Meta AI目前已支持七种新语言，本次Meta推出一批新的Meta AI创意工具，主要聚焦视觉生成、数学和编码等领域。

首先看看视觉生成，Meta AI推出**“想象我（Imagine Me）”图像生成提示功能**，支持用户在Meta AI聊天中输入“想象我”并添加提示，例如“想象我是皇室成员”或“想象我在一幅超现实主义绘画中”，就可以生成图像并与朋友和家人分享。

Meta AI将上线“使用AI编辑（Edit With AI）”功能，用户可以通过点击鼠标轻松添加或删除对象，或更改和编辑它们，并保持图像的其余部分不变，比如将“将猫改为柯基犬”。Meta AI还将支持将新制作的图片添加到Facebook帖子中，以及Instagram、Messenger和WhatsApp等社交平台上。

在数学和编程方面，用户可以通过分步解释和反馈获得数学作业方面的帮助，通过调试支持和优化建议更快地编写代码，并通过专家指导掌握复杂的技术和科学概念。

用户可以结合Meta AI的编码专业知识和图像生成功能，从头开始构建新游戏或对经典游戏进行全新演绎。只需几分钟即可将奇思妙想变成现实，甚至让用户直接预览游戏。

值得一提的是，Meta AI也适用于雷朋Meta智能眼镜，并将于下个月在美国和加拿大的Meta Quest上以实验模式推出。Meta AI将取代Quest上当前的语音命令，让用户可以免提控制耳机、获取问题的答案、随时了解实时信息、查看天气等。

用户还可以将Meta AI与在头显中看到的视图结合使用，比如询问其在物理环境中看到的事物相关情况。

04.

扎克伯格公开信：

开源对开发者、Meta、世界都更有利

Llama 3.1系列刚发布，扎克伯格的长篇公开信同时上线官网，使得开闭源模型之间的火药味更浓了。

▲扎克伯格公开信部分截图

一开始，扎克伯格就提到开源模型与闭源模型之间的差距正在逐渐缩小。去年，Llama 2仅与上一代最先进的闭源模型相当。今年，Llama 3可与最先进的模型媲美，并在一些能力上处于领先地位。

从明年开始，他预计Llama模型将成为业内最先进的模型。并且当下Llama系列模型已经在开放性、可修改性和成本效益方面处于领先地位。

在博客中，他回答了为什么开源AI对开发者有利、为什么开源AI对Meta有利、为什么开源AI对世界有利这三大问题。

首先，为什么开源AI对开发者有利？

他认为开发者需要训练、微调自己的模型，以满足各自的特定需求；开发者需要掌控自己的命运，而不是被一家封闭的供应商所束缚；开发者需要保护自己的数据；开发者需要高效且运行成本低廉的模型；开发者希望投资于将成为长期标准的生态系统。

开源AI对Meta的好处在于，Meta的商业模式是为人们打造最佳体验和服务，要做到这一点，他认为必须确保其始终能够使用最佳技术，并且不会陷入竞争对手的封闭生态系统。

同时，开源AI会促使Meta将Llama发展为一个完整的生态系统，并有成为行业标准的潜力。

他还提到，Meta与闭源模型玩家之间的关键区别之一是，出售AI模型访问权限不是Meta的商业模式，这意味着开源不会削减其收入、可持续性发展或继续投资研究的能力。

最后就是Meta拥有悠久的开源项目和成功历史。

关于开源AI模型安全性的争论，扎克伯格的观点是开源AI将比其他选择更安全。他认为开源将确保全世界更多的人能够享受AI带来的好处和机会，权力不会集中在少数公司手中，并且该技术可以更均匀、更安全地应用于整个社会。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

辣卤牛肉面

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
最强开源大模型一夜封神！Llama 3.1震撼发布，真正的全民GPT-4时代来了

昨夜，Meta宣布推出迄今为止最强大的开源模型——，同时发布了全新升级的Llama 3.1 70B和8B模型。Llama 3.1 405B支持上下文长度为，在基于上进行训练，这也是Meta有史以来第一个以这种规模进行训练的Llama模型。研究人员基于超150个基准测试集的评测结果显示，、Claude 3.5 Sonnet和Gemini Ultra等业界头部模型媲美。除了性能强劲外，Meta创始人兼CEO马克·扎克伯格还亲自发文助阵，他称，除了比闭源模型成本和性能更优，。
复制链接

扫一扫