在大模型AI的下一个战场,为中小创新企业重构竞争格局

麦肯锡预计到2030年前,AI有望为全球经济贡献25.6万亿美元的价值,其中生成式AI的贡献高达7.6万亿美元。自2023年“百模大战”以来,基础大模型的“战事”已经进入尾声,大模型正在“卷向”产业和行业,越来越多的创新企业正在进入企业和行业大模型市场,让大模型真正落地、创造经济价值。

然而,当前的智能算力已经被AI头部大厂占满。业界推测GPT 4使用了2万多张GPU集群,训练了90-100天,训练成本高达6000-8000万美元,体现了面向大模型训练的AI基础设施,具有独占性、大规模和长时间的特点。中小创新企业既无力投资自有算力,也无法与头部大厂争抢有限的算力资源,从而也难以参与快速发展的大模型AI技术。

IDC指出,大模型正在重构整个IT生态,新一代AI基础设施将是下一个战场。当前,很多地方政府和企业正在投资智算中心,云大厂也在投资AIaaS,这些几乎都以服务头部创新企业为主。而只有服务中长尾上中小创新企业的AI基础设施,才有可能真正重构市场竞争格局,让中小创新企业参与大模型AI市场,释放大模型的普惠红利。

下一个战场:新一代AI基础设施

大模型与生成式AI正在加速从以CPU通用计算为核心的算力体系,向以GPU为代表的加速计算为核心的计算体系转型。当前,加速芯片正百花齐放:NVIDIA GPU一家独大,谷歌TPU、AWS Trainium、各种国产GPU和AI加速芯片等蓬勃发展,新一代AI基础设施呼之欲出,但异构AI芯片功能各异且不通用,生态也很有限,实际上形成了大模型普惠的瓶颈。

新一代AI基础设施的不仅面临着芯片层面的瓶颈,在大模型“大力出奇迹”的指导思想下,还面临着大系统的创新挑战。万亿或十万参数大模型对于传统数据中心提出极大的挑战,包括需要构建大规模万卡集群、高速分布式存储、高速可预期网络和调度加速框架等。例如,万卡智算中心网络特点是大规模、高带宽、低延迟、零丢包等,这些都是大系统创新挑战。

当前万卡集群的建设仍处于起步阶段,主要依赖NVIDIA GPU及配套设备实现,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。为了服务中小创新企业,新一代AI基础设施除了在芯片、系统硬件、系统软件和基础设施等方面进行创新外,还需要在算力调度、大模型与生成式软件开发、应用部署等软件层面进行创新,端到端打通应用生态,才能真正降低中小创新企业的门槛,释放生成式AI的生产力。

打通智能计算生态,任重而道远

打造面向中小创新企业的新一代大模型AI基础设施,关键在于智能计算生态。中国工程院院士孙凝晖指出,当前的国内智能计算生态孱弱,NVIDIA CUDA生态完备,已形成了事实上的垄断。国内企业山头林立,无法形成合力,虽然智能应用、开发框架、系统软件、智能芯片等每层都有相关产品,但各层之间没有深度适配,无法形成有竞争力的技术体系。

NVIDIA公司通过十多年的努力,建立了一个基于CUDA的庞大的智能计算生态,与国内智能芯片公司相比:NVIDIA CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;CUDA有550个SDK,是国内相关企业的上百倍;NVIDIA每年投入50亿美元,是国内相关公司的几十倍;此外,AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10……

打通智能计算生态,甚至对于国际领先企业来说,也是任重而道远的任务。根据国际报道,亚马逊正在努力与NVIDIA在人工智能芯片领域的主导地位竞争,经过4年多的努力,仍然面临着低使用率、兼容性差距和项目迁移等挑战。Bernstein研究公司分析师认为,每个主要的科技公司都想要从NVIDIA业务中分得一杯羹,但没有人能够取得进展。

对于中小创新企业来说,在NVIDIA的“垄断性”和云大厂的“孤岛式”AI基础设施之外,再构建一个灵活选择、灵活编排、灵活计价、灵活交付且具有全栈能力的AI基础设施,突破智能计算生态的“墙”,难度之大,可想而知。中国工程院院士郑纬民曾表示,国产生态只要解决好编程框架、并行加速、调度器、内存分配系统、容错系统、存储系统等问题,即使只有国外芯片60%的性能,国产芯片也会大受欢迎。

迎难而上,突破性的中国方案

2024年5月,北京特大型高科技企业北京电控所属的北京电子数智科技有限责任公司(简称“北电数智”)亮相2024中关村论坛,其规划设计与建设运营的北京数字经济算力中心作为新一代AI基础设施,首次进入了大模型AI产业视野。北电数智在9个月的时间里,突破性初步拉通了国产智能计算生态,打造了服务中小创新企业的全栈“AI工厂”。

具体来看,北电数智通过三大创新举措,为中小创新企业打造国产新一代AI基础设施:先进计算迭代验证平台、北京数字经济算力中心以及可信数据空间。

先进计算迭代验证平台主要采用vGPU技术,将物理GPU分割成多个虚拟GPU“切片”,再将虚拟GPU“切片”与不同的国产AI芯片混合起来,形成“高带低”的混合推理、混合训练等模式,面向文本、视频、图片等不同场景,充分发挥不同国产AI芯片在不同场景下的能力,在通用GPU的协同下,以更高性价比,满足不同场景的算力需求。

先进计算迭代验证平台通过软件加速、算子库补齐、网络和通信等工作,实现国产芯片的性能加速和调优,对外提供多场景智能算力。目前,北电数智已经能把国产芯片的性能从30-80分提高到70-90分,达到有用户愿意买单的程度。该平台还通过“以评促用”,让国产算力被用起来,在真实场景中“发现”芯片不足,推动芯片迭代升级,从可用到好用。

先进计算迭代验证平台实现了芯片与主流大模型的全方位解耦和适配。与CUDA的目标不同,CUDA需要解决不同大模型如何运行在NVIDIA GPU上的问题,而先进计算迭代验证平台要解决的是相同的大模型如何运行在不同AI芯片上、再以类似水或电的形式提供给开发者的问题,这其实就为新一代AI基础设施的中国方案找到了破题思路——也就是从算力平台层突破生态壁垒而不是从芯片层突破,这样既降低了难度,又找到了产业化路径。

换言之,先进计算迭代验证平台首先解决供需问题,也就是为国产芯片算力找到客户,也向客户推荐国产芯片算力,用经济规模效应让国产芯片算力被用起来,这样国产芯片算力就能参与到实际的场景中,也能不断了解客户的真实需求。其次,先进计算迭代验证平台从算力池、框架、模型到场景和应用进行端到端的联合优化,为开发者提供极致性能和成本优化,让大模型真正落地,在这个过程中不断优化国产芯片性能,同时也能给不同的国产芯片“打分”,让用户选型有据可依。

先进计算迭代验证平台在最底层打造了异构算力资源池,之上就是大系统创新——北京数字经济算力中心,即北电数智正在打造的AI工厂。作为万卡集群的智算中心,北京数字经济算力中心打造了全栈AI能力——算力、算力调度、算法框架、大模型、MaaS和应用开发平台,在每一层都汇聚了众多生态合作伙伴,集众家所长、打磨工程化平台化产品,让中小企业直接“拖拉拽”就可以开发自己的定制化大模型和生成式AI应用,并基于产业的AI全栈式能力,以生产要素聚集、生产能力培育及行业全面赋能的模式,服务AI产业生态企业,进一步实现AI产业生态运营。

可信数据空间则通过隐私计算、区块链、可信数据库等技术和机制,实现数据“安全共享、可信流通”,通过数据采集、存储、处理、分类、传输、交易等,让数据供需双方更加无忧地尝试匹配。可信数据空间提供政务数据专区、金融数据专区、医药数据专区等,为政府和企业提供安全数据盘活服务、脱密数据服务、打通可信数据流通路径。

在算力、算法和数据之外,北电数智也在大模型幻觉、大模型安全、知识产权、行业合规等方面,提供了丰富而全面的解决方案和服务。最后,北电数智还以AI云服务的形式,为中小企业提供低门槛、低价格的智能服务,真正普惠大模型AI。

北电数智所做的这一切,必须要联合智能计算生态的上下游。目前,北电数智已经链接AI产业生态伙伴700多家,包括芯片、服务器、数据中心、AI大模型及工程化、政务及公共服务、先进制造、大交通、大健康、教育、影视传媒等。

为了打通生态厂商的壁垒,北电数智采取了各种方式,其中一种就是“AI江湖产业生态闭门会”,让处于竞争状态的厂商,为了同一目标聚集起来,共同解决整个生态所面临的问题,显现了“集中力量办大事”的优势。实际上,大模型的出现更是对于AI和经济未来的重新想象,更需要昔日的竞争对手坐下来一起重新思考未来,再对齐各自当下的行动。

北电数智在建设北京数字经济算力中心的同时,也揭榜挂帅了北京某委办局政务大模型项目,同时通过先进计算迭代验证平台为用户提供使用指引,为芯片厂商提供可能的发展路径,以可信数据空间促进数据共享流通的“安全可靠运行环境”,将切实的商业利益反哺给整个生态,让国产智能计算生态形成正向的良性循环发展。

在面对客户需求时,北电数智通过三步走,帮助中小企业尽快用上用好智能算力:第一步:针对场景进行“诊断”,帮助用户制定合理升级路径,使企业无需进行大规模的开发投入;第二步,从实践中提炼出与用户需求相契合的“算力+模型”最优组合,缩短AI开发周期;第三步,与生态企业们联合共创,输出最适合用户需求的AI解决方案。

在新一代AI基础设施这个新战场上,北电数智率先实践了中国方案。北电数智是北京电控所属企业,在北京电控整体战略布局下,北电数智正以全面势能,拉通大模型AI产业链生态,端到端打通从实际场景到智能应用、大模型、开发框架、系统软件、智能芯片等的全技术链条,进而逐步培育有竞争力的国产大模型AI技术体系。

全文总结:国产新一代AI基础设施是普惠大模型AI红利、重构未来竞争格局的下一个战场。以北电数智为代表的企业,正在成为国产新一代AI基础设施的“串珠人”,汇聚行业资源、深耕行业需求,串联行业关键节点打造 AI 产业链。以新时代的担当,“集中力量办大事”,拉起国产智能计算生态,闯出与美国不同的AI产业路。尽管突破国际智能计算生态的道路险阻且漫长,但北京数字经济算力中心作为中国大模型AI产业的一面新旗帜,正在集结新的智能计算生态,为中小创新企业重构未来竞争格局。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值