迄今为止性能最强大的开源大模型 Llama 3.1 (4050亿参数)--深度分析 2024

1、核心观点

Llama 3.1发布,开源大模型王者易主。7月24日报道,美国科技巨头Meta推出迄今为止性能最强大的开源大模型——Llama 3.1 405B(4050亿参数),同时发布了全新升级的Llama 3.1 70B和8B模型版本;**Meta评估了超150个基准数据集的性能,Llama 3.1 405B在代码生成和评估、数学推理、长上下文处理、工具使用和多语言支持等一系列任务中,可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美;**在其他场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。

开源引领,加速构建META生态**。**与闭源模型不同,Llama 3.1是公开可用的模型,模型的权重可供下载;**Llama 3.1开源使得更广泛的开发者及社区可以为其应用程序定制模型,并在任何环境中运行,包括本地服务器、云端、笔记本电脑、甚至手机等,同时无需将数据分享给Meta。**同时,Meta透露,其更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。

• 未来预期:转向MOE结构,落地三种商业模式。MoE(混合专家模型)是一种基于Transformer架构的模型,旨在提高模型的计算效率和性能。其基本思想是通过多个“专家”网络(子模型)协同工作,根据输入数据的特征动态选择最合适的专家,从而优化计算资源的使用和模型的预测精度。

2、基于Meta的商业模式,我们认为Llama 3.1在未来将有以下商业化落地模式

1)云厂商使用费用:谷歌、亚马逊等下游云服务商提供基于Llama 3.1模型的服务,Meta将从中收取部分费用;

2)通过Meta生态间接变现:在Meta开发的Facebook、Instagram等软硬件产品上使用基于Llama 3.1模型的AI助手,从而吸引用户在软件内消费;

3)广告服务:基于Llama 3.1模型提供广告开发以及精准投放服务,并收取费用。

Llama 3.1发布:开源模型王者易主

3、70B和8B模型版本。

• Meta评估了超150个基准数据集的性能,Llama 3.1 405B在代码生成和评估、数学推理、长上下文处理、工具使用和多语言支持等一系列任务中,可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。

• 在其他场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。另外,升级后的Llama 3.1 8B和70B模型,相比于同样参数大小的模型性能表现也更好。

• Llama 3.1 405B支持上下文长度为128K Tokens,增加了对八种语言的支持,在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练,这也是Meta有史以来第一个以这种规模进行训练的Llama模型。

• 与之前的Llama版本相比,Llama 3.1提高了用于训练前和训练后的数据数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

• 截至目前,已经有超过25个企业推出了基于Llama 3.1开源版本的新模型。其中,亚马逊AWS、Databricks和英伟达正在推出全套服务,AI芯片创企Groq等为Meta此次发布的所有新模型构建了低延迟、低成本的推理服务,Scale AI、戴尔等公司已准备好帮助企业采用Llama模型并使用自己的数据训练定制模型。国内方面,阿里云、腾讯云已上架 Llama 3.1模型,并支持精调和推理。

图1:Llama 3.1与主流大模型测试对比

图2:Llama 3.1 405B模型人类评估测试

4、开源引领:加速构建META生态

• 与闭源模型不同,Llama 3.1是公开可用的模型,模型的权重可供下载。Meta在llama.meta.com以及Hugging Face上提供下载途径,开发者可以完全根据他们的需求和应用定制这些模型,能够在新的数据集上进行训练,并进行额外的微调。

• Llama 3.1开源使得更广泛的开发者及社区可以为其应用程序定制模型,并在任何环境中运行,包括本地服务器、云端、笔记本电脑、甚至手机等,同时无需将数据分享给Meta。

• 同时,Meta透露,其更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。

Meta的商业模式基于为客户打造体验和服务,基于Meta的商业模式,我们认为本次Llama 3.1开源主要由于以下原因:

1)不同于闭源模型厂商,Meta的商业模式主要通过在生态里的应用、广告盈利,因此公开发布Llama不会影响Meta的收入、可持续性或研究投资能力,而这些对闭源模型厂商则会有影响;

2)Meta的商业模式决定了其必须确保不被锁定在竞争对手的封闭生态系统中,以免限制自身的开发。通过开源吸引大量开发者使用,Llama将发展成完整的生态系统,包括工具创新、效率改进、硬件优化和其他集成,基于Llama开发的AI助手将部署在Meta的软件当中,为用户带来全新体验,从而增加用户粘性,为自身其他产品打造护城河;

3)Meta有着长期开源项目的成功经验。曾通过开源数据中心设计从而引领行业标准,从而在建设数据中心时节省数十亿美元,Meta同样希望Llama将成为开源大模型行业的标准,使自身生态系统在未来受益。

图3:Llama 3.1对Meta生态的影响

5、未来预期:转向MOE结构,落地三种商业模式

为训练Llama 3.1模型,Meta做出了以下设计:

1)选择了标准的仅解码器的Transformer模型架构,并进行了一些微小调整,而不是使用专家混合模型,以最大化训练的稳定性;

2)采用了迭代的后训练程序,每轮使用监督微调和直接偏好优化。这使Meta能够为每轮创建最高质量的合成数据,并提高每项能力的性能;

3)与之前的Llama版本相比,Meta改进了用于前训练和后训练的数据的数量和质量,包括开发更仔细的前训练数据预处理和策划管道,开发更严格的质量保证和后训练数据的过滤方法等。

MoE(混合专家模型)是一种基于Transformer架构的模型,旨在提高模型的计算效率和性能。其基本思想是通过多个“专家”网络(子模型)协同工作,根据输入数据的特征动态选择最合适的专家,从而优化计算资源的使用和模型的预测精度。

目前Meta正在准备Llama 4模型,我们认为,随着Scaling Law持续,模型训练参数将持续增加,大幅提高模型训练的硬件需求,未来Meta会更多关注于MoE架构,从而在控制训练成本的前提下获得更强的模型能力。

基于Meta的商业模式,我们认为Llama 3.1在未来将有以下商业化落地模式:

1)云厂商使用费用:谷歌、亚马逊等下游云服务商提供基于Llama 3.1模型的服务,Meta将从中收取部分费用;

2)通过Meta生态间接变现:在Meta开发的Facebook、Instagram等软硬件产品上使用基于Llama 3.1模型的AI助手,从而吸引用户在软件内消费;

3)广告服务:基于Llama 3.1模型提供广告开发以及精准投放服务,并收取费用。

图4:Llama 3.1模型架构

图5:MoE相关研究增长强劲

6、利好产业:硬件+云+软件全方位受益

我们认为,Llama 3.1模型开源将为多个产业提供自主训练AI模型的案例及工具,将首先利好以下产业:

1)手机、PC、平板电脑等智能终端厂商:Llama 3.1模型开源为智能终端厂商提供了根据自身需求开发及训练AI智能体的全套工具,有助于打破OpenAI及谷歌等闭源厂商的封锁。受硬件水平限制,预计PC厂商将首先受益,预计明年手机等其他终端达到7-8B的运行环境后也将受益,目前戴尔等终端厂商已准备好采用Llama并使用自己的数据训练自定义模型;

2)云服务提供商:Llama 3.1模型将在AWS、Azure、Google Cloud、Oracle、腾讯云以及阿里云等主要云服务提供商的平台可用,云服务商能够利用Llama 3.1模型来增强其 AI 服务,吸引更多的企业客户使用他们的云平台进行AI开发和部署;

3)AI开发平台和工具提供商:Amazon、Databricks和NVIDIA等公司正推出完整的服务套件,支持开发者微调和优化Llama 3.1模型。开源模型将刺激下游AI训练需求,并使这些平台能够提供更强大的工具和服务,吸引更多的开发者和企业客户;

4)数据分析及技术服务公司:Scale.AI等数据分析公司将帮助企业使用Llama 3.1模型进行数据标注、清洗和分析,提升数据处理和应用的效率。Deloitte等其他咨询公司将利用Llama 3.1模型为企业提供定制化的AI解决方案和技术服务,帮助企业在各自的领域中实现智能化转型;

5)软件开发及应用公司:Meta本身以及其他软件公司可通过Llama 3.1模型开发软件内部的AI服务功能,从而增强自身竞争力及用户粘性。

图6:Llama 3.1模型利好多个产业

7、大模型厂商进展:AI竞赛白热化,大模型厂商各有侧重

图7:近期大模型厂商进展

• OpenAI:当地时间7月25日,OpenAI发布AI搜索产品SearchGPT的原型,目前SearchGPT还未开放公测,仅有1万名用户被邀请。与传统搜索引擎不同,SearchGPT不仅仅集成了实时网络信息,应该也包括类似多步推理的功能,能够按照问题总结相关信息并回答,而不需要用户自己去浏览网页。7月18日,OpenAI推出GPT-3.5 Turbo替代品—GPT-4o mini,即GPT-4o更小参数量的简化版本。ChatGPT的免费用户、Plus用户和Team用户都能够使用GPT-4omini。GPT-4o mini价格也大幅下降,GPT-4o mini每100万输入token价格为15美分,每100万输出token价格为60美分,比GPT-3.5 Turbo便宜超60%。

我们认为,OpenAI目前侧重技术突破及行业引领,重点在办公侧AI应用落地,并通过不断优化价格及模型提高自身竞争能力。

• 谷歌:当地时间7月26日,Android Headline展示了Pixel 9系列手机中的诸多Gemini AI功能,改善用户交互体验,包括手机版的微软Recall功能,可以保存设备屏幕截图,从而满足用户的AI需求。7月26日,谷歌推出了专门从事数学推理的AlphaProof模型,并使用AI拿下IMO奥数银牌。我们认为,谷歌目前侧重于技术商业化及市场占有率,重点在搭载AI的智能终端落地,多款搭载AI模型的产品已在进程当中。

• xAI:当地时间7月26日,马斯克宣布xAI开始根据社交媒体网站X上用户的帖子训练其AI聊天机器人Grok。7月22日,**由xAI、X、英伟达等合力打造的由10万块H100组成孟菲斯超级集群(Memphis Supercluster)已经开始启用,为世界上最强大的人工智能训练集群,**xAI团队、X团队、英伟达以及其他一些支持公司已开始在该集群上进行训练。

我们认为,目前xAI侧重于推进模型训练以及应用落地,重点在于:

1)硬件端数据中心建设,为后续模型训练提供基础;

2)软件端加速模型迭代,Grok-2以及Grok-3将于本年内推出;

3)推进模型应用落地,X平台正开发多项基于Grok模型的功能,包括生成式AI聊天机器人的Grok侧面板、账户总结和高亮文本搜索等功能。

• Authropic:当地时间7月16日,Anthropic推出Claude Android应用程序,搭载Claude 3.5 Sonnet模型,用户可免费访问Anthropic最佳的AI模型Claude3.5 Sonnet,并通过Anthropic的Pro和Team订阅升级计划。

用户将能够在设备间同步他们与Claude的对话,并可以将照片或文件上传到应用程序进行实时图像分析,Claude Android应用程序还包括实时语言翻译功能。7月10日,Anthropic在Claude 3.5 Sonnet增加了新的Artifacts功能,可以分享和修改AI生成的内容。Artifacts功能允许用户将自己制作的游戏或者银承程序发布储蓄,还可以从共享平台上下载其他人制作的内容,并利用AI进行修改。

Artifacts并不局限在Claude平台内部,用户可以轻松地将它们分享到任何地方。我们认为,Authropic侧重于提升其AI模型的易用性,通过提供Claude iOS应用程序以及Claude Android应用程序,Authropic目前重点在于提升其应用程序的竞争力,从而吸引更多消费者使用其平台。

8、风险点

• 大模型研发进展不及预期:大模型的发展受制于模型架构、参数量和训练数据量的提升,合法合规的高质量数据获取愈发困难,大模型研发进展可能不及预期;

• AI应用落地不及预期:受制于模型成熟度、用户习惯的培养等,AI应用落地可能不及预期,进而反向制约产业对大模型的投入;

• AI算力投入不及预期:AI算力是支撑大模型迭代的基石,但其需要大量的资本投入,AI算力投入可能不及预期。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值