开源大模型再迎“历史性时刻”，Meta发布Llama 3.1

程序员笑武

于 2024-07-24 19:52:03 发布

阅读量423

点赞数 7

文章标签：开源 llama langchain 架构 transformer 深度学习 chatgpt

本文链接：https://blog.csdn.net/m0_59164304/article/details/140671913

版权

7月23日晚，Meta正式推出了最新的开源大模型系列Llama 3.1，进一步缩小了开源模型与闭源模型之间的差距。Llama 3.1系列包括8B、70B和405B三个参数规模，其中Llama 3.1-405B参数的模型在多个基准测试中超越了OpenAI的GPT-4o，与Claude 3.5 Sonnet等领先的闭源模型相媲美。

模型规模与性能提升

这次发布的Llama 3.1模型大小大约820GB，包含有8B、70B和405B三种参数规模的模型。其中，8B和70B是对5月份发布模型的升级版本，将长文支持提升到了128K tokens。Llama 3.1在基准测试中展现了出色的性能，即使是70B的模型，也在多项测试中超越了GPT-4o。

Llama 3.1-405B版本的性能尤为出色。在MMLU Pro数学基准上，它以73.3%的成绩领先所有大模型。此外，在GPQA（研究生水平的专业知识和推理）、DROP（阅读理解）、MGSM（多语言数学）、HumanEval（编程）和BBH（知识评估）等多个基准测试中，405B版本的表现与GPT-4o不相上下，甚至在某些方面略胜一筹。

如基准测试所示，Meta Llama 3.1在GSM8K、Hellaswag、BoolQ、MMLU-humanities、MMLU-other、MMLU-stem和Winograd等多项测试中均优于GPT-4o。

但值得注意的是，HumanEval和MMLU-social sciences方面却落后于GPT-4o。可见，70B的参数量再往上扩展，收益已经不再显著。在大模型之家看来，未来，AI行业也许并不不需要15万亿这么多tokens来进行预训练，未来将是高质量合成数据和后期训练的世界。

累计3930万GPU小时的计算时间

Llama 3.1在多个方面都有显著提升：上下文长度增加到128K tokens，大幅提升了模型处理长文本的能力。这对于需要处理复杂文档和长篇对话的应用非常重要。支持8种语言的多语言输入输出，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，扩展了模型在国际化场景中的应用范围。预训练数据量达到15万亿tokens，确保了模型知识的时效性和广度。采用分组查询注意力（GQA）技术，提高了推理的可扩展性，增强了模型在处理复杂任务时的效率。

Meta的训练细节显示，模型在H100-80GB GPU上训练，累计使用了3930万GPU小时的计算时间。这不仅体现了Meta在硬件资源上的投入，也反映了团队在优化训练过程中的技术实力。值得注意的是，Meta强调自2020年以来一直保持净零温室气体排放，并且100%使用可再生能源。Meta的这一承诺不仅展示了企业的环保意识，也为AI行业树立了一个新的标准。

开源模型的“历史性时刻”

Meta创始人兼CEO扎克伯格在官网他表示，Llama 3.1将成为行业的一个转折点，越来越多的开发人员将转向使用开源模型，开源AI是未来的发展方向。英伟达高级研究科学家Jim Fan在X上发文祝贺Meta团队，称这是一个“具有历史意义的时刻”。

此外，马斯克也盛赞扎克伯格，认为他理应因开源得到赞誉，并表示Meta会成为开源大模型界的标杆。

尽管Llama 3.1表现出色，但这并不意味着它已经超越了GPT-4o。要知道，GPT-4o是在GPT-4的基础上经过两代优化（GPT-4 Turbo和GPT-4o）才达到当前的水平，其激活参数远小于405B的规模，是速度和性能的代表。

但不可否认的是，Meta的开源策略不仅为开发者和企业提供了一个强大的工具，也推动了AI研究和应用的普及。这可以让学术界深入研究非常深层次的Transformer在幻觉、推理和跨语言理解等场景下的工作机制。因为Llama 3.1作为一个稠密模型，比MoE在研究上更有普适意义，且可能是目前开源的最强模型，即使有更强的闭源模型，学术界也无法研究。

此外，Meta在模型卡中详细列出了安全考量，包括CBRNE（化学、生物、放射性、核和爆炸材料）有用性、儿童安全和网络攻击等方面的风险评估。这些安全考量体现了Meta对模型应用潜在风险的高度重视，确保模型在实际应用中不会引发不可控的问题。Meta强调，Llama 3.1并非设计为单独部署，而应作为整个AI系统的一部分，并配备额外的”安全护栏”。开发者在使用时需要特别注意工具使用和多语言输出的潜在风险，并进行充分的安全测试和微调。

Meta还更新了开源许可，允许开发者首次使用Llama模型（包括405B）的输出来改进其他模型。这为开发者提供了更大的灵活性，使他们能够在现有基础上进行创新和优化。Meta计划将图像、视频和语音功能整合到Llama 3中，使模型能够识别图像和视频，并通过语音进行交互。这一功能目前仍在开发中，但已经展示了未来应用的巨大潜力。Meta表示，截至目前，所有Llama版本的总下载量已超过3亿次。

“开源人工智能代表着世界最好的机会，”扎克伯格表示，利用这项技术可以创造最大的经济机会和安全保障。这一表态再次凸显了Meta在推动开源AI领域的坚定立场和长远目标。Meta认为，开源能够促进创新、降低成本、提高安全性。对开发者来说，利用开源可以训练、微调和蒸馏自己的模型，每个组织都有不同的需求，使用不同尺寸的模型来满足这些需求，并通过特定数据进行训练或微调。同时，开发者可以不被锁定在封闭供应商中，保护数据安全。“开源软件往往更安全，因为它的开发更加透明，可以被广泛审查。”扎克伯格认为。

大模型之家观点

随着Llama 3.1的正式发布，我们可能会看到更多基于它的创新应用和研究成果。Meta的这一突破性进展不仅在性能上接近或超越了闭源模型，更重要的是，它为开发者和研究人员提供了一个可以自由使用和定制的强大工具。这可能会加速AI应用的创新和普及，让更多人受益于先进的AI技术。

Llama 3.1的发布无疑是开源AI领域的一个里程碑事件。它不仅缩小了开源与闭源模型之间的差距，更为AI的民主化和创新带来了新的可能。Topology CEO Aidan McLau惊呼，如果测试结果属实，Llama 3.1将成为”世界上最好的模型”，而且”每个人都可调”。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

程序员笑武

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
开源大模型再迎“历史性时刻”，Meta发布Llama 3.1

7月23日晚，Meta正式推出了最新的开源大模型系列Llama 3.1，进一步缩小了开源模型与闭源模型之间的差距。Llama 3.1系列包括8B、70B和405B三个参数规模，其中Llama 3.1-405B参数的模型在多个基准测试中超越了OpenAI的GPT-4o，与Claude 3.5 Sonnet等领先的闭源模型相媲美。这次发布的Llama 3.1模型大小大约820GB，包含有8B、70B和405B三种参数规模的模型。
复制链接

扫一扫