大模型下半场:阶跃如何领跑多模态之战,揭秘其核心竞争力与技术创新!

DeepSeek “掀桌”三个月后,国内大模型的竞争格局大致可划分为三大阵营:

一是以大厂为代表的资源派,他们手握充足资本,能在基础模型和落地应用上持续烧钱;二是以 DeepSeek 为代表的技术派,专注于基座模型的突破和投入,在推理、数理或多模态等单点技术上见长;三是以阶跃星辰、智谱为代表的国家队,获得地方政府的大力支持,能够潜心做技术积累以追求全面发展。

虽然 DeepSeek 有着明显优势,但三股力量都在基础模型上发力同时又各有长处。而其中,多模态被视为 AGI 进程中的关键跃迁点,逐渐成为大模型下一阶段竞争的分水岭。现阶段多模态能力突出的独角兽公司屈指可数,有着“多模态卷王”称号的阶跃星辰作为一个重要玩家得到了很多关注。

成立两年的时间以来,阶跃星辰累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,其中 16 款都是多模态模型,占比超 7 成。

图片

外界有一种质疑,阶跃平均每个月都发布一款新模型是卷王在冲 KPI,但剖析阶跃的研发条线来看就会发现,答案是否定的。多模态的每个条线都是经过了几个月或者半年的积累才迭代出一个新的产品,这种情况下如果同时看所有模态条线,自然就形成了一两个月就出一个新成果的局面。

和其他家不同的是,阶跃从一开始就坚定地走理解生成一体化的路线,这也预判了当下 AI 发展从多模态融合到多模态理解生成一体化的趋势,并且提前做出动作。纵观国内大模型公司,像阶跃这样重视模态的全覆盖、并且坚持原生多模理念的公司并不多。

阶跃星辰创始人、CEO 姜大昕告诉 AI 科技评论,当下 AI 行业的技术趋势处于非常陡峭的发展区间,追求智能的上限仍然是一件很重要的事,阶跃会继续在基础大模型上投入,不错过这个机会。

1

多模态是下阶段基模竞争的技术决胜点

和多位阶跃星辰的核心成员交流过后,AI 科技评论发现,他们对多模态的坚信、重视和紧迫程度要高于其他的大模型公司。姜大昕认为,AGI 的终局不仅包括语言符号,还包括视觉、空间、运动智能等,因此在多模态领域的任何一个方向出现短板,都会延缓实现 AGI 的进程。

自Sora 实现视频生成效果的突破之后,行业内视觉模型整体发展的绝对水平都较为有限,虽然各家在不同方面各有长处,然而均在 Sora 的大框架中,未曾迎来下一个发生质变的奇点时刻。

类比 NLP 的进化过程会发现,自然语言处理经历了从不能规模化预训练,到 Transformer 这一 Scalable 的文本理解生成一体化架构,再到GPT-3 实现大规模文本训练和指令跟随的过程。而在视觉领域,这一进程甚至尚未能实现第一步——视觉理解生成一体化架构。

姜大昕也坦言,知道 Sora 的 DiT 技术路线没有按照预期中走生成理解一体化路线时,第一反应有些期待落空。但回头一想也有道理,因为从多模态融合做到生成理解一体化,中间需要走的路着实很难。

多模态的复杂程度相较于语言来讲要高得多。于文字而言,至多有十几万个 token,并且呈低维离散分布的状态,因此易于进行表达从而实现 next token prediction。于多模态而言,仅是一张1024×1024 的图片就可以达到 100 万维,且每个维度都是高维的连续空间,难以实现很好的表征,从而无法实现 next frame prediction。

如果跟随自然语言的发展路径,第一步要做的就是具备一个可以 scalable 的理解生成一体化的架构,之后才能实现 predict next frame 、完成指令跟随,迎来真正的“多模态大模型”。

图片

而多模态大模型之所以关键,是因为人、机器与世界交互的形式是多模态的,Agent、具身智能等一切进一步的人工智能实现形式都需要以多模态能力为基础。以智能体为例,其实时的周围感知就相当于长视频,最终的目标是理解世界、预测行为。

在理解生成一体化、统一表征问题的基础上,多模态大模型即可以利用海量视频数据做视觉预训练,再泛化到理解生成的各个视觉任务中。随后在视觉领域引入强化学习和推理能力,再增加时空推理、3D模型、自然语言的能力,从而建模物理世界的交互,训练能预测行为的 VLA 模型,至此世界模型的雏形就清晰可见。“如果能实现世界模型,我眼中的 AGI 就几乎实现了。”姜大昕告诉 AI 科技评论。

要突破视频生成模型局限性,光靠在现有技术水平下继续迭代是难以解决的,必须在学习范式上有所改变,理解和生成的一体化是其中绕不开的问题。而阶跃星辰从一开始,就确定了理解生成一体化的路线,采用原生多模的方式,在多模态融合技术上跑通了一条路。

当下,视觉领域的 GPT-4 时刻还远远未到来,但清晰可见的是多模态能力将成为 AI 大模型下一阶段基础模型竞争的技术决胜点。阶跃星辰仍然按照模拟世界——探索世界——归纳世界的节奏进行技术积累,继续提升基础大模型的“智能上限”和多模态能力。

2

阶跃星辰的多模态竞争力解剖

行业内对阶跃星辰的评价,一是低调,二是技术“数一数二”的强悍。反观阶跃星辰的技术发展路线,一直都能在火爆现象浮出水面之前,就踩在趋势的前沿上。

半年多的时间以来,大模型技术上有两个趋势,一是强化学习的重要性越来越凸显,从 o1 preview 将推理模型从趋势变成范式,到 DeepSeek 摒弃监督微调,都说明了推理能力正在打开更大空间;二是从多模融合到多模理解生成一体化。

而在强化学习和多模态这两个条线,阶跃星辰均早有布局。在推理模型方面,今年1月份发布的Step R-Mini速度快、能力强,预计未来三个月左右的时间将会推出满血版推理模型Step R1;在多模态方面,坚持走理解和生成统一路线,搭建了覆盖图片、视频、语音的多模态模型矩阵。

阶跃星辰之所以能对技术路线如此坚定清晰,与核心成员是密不可分的。他们亲历了过去十年 AI 发展的历程,有着深刻的实战经验和技术洞察。

创始人、CEO 姜大昕出身于微软亚洲研究院 NLP 组,近 20 年的研发经验使他把握住了阶跃基础大模态矩阵的正确的方向;首席科学家张祥雨对多模态模型的技术架构颇有思考,参与著作的《用于图像识别的深度残差学习》论文(ResNet)是 21 世纪以来全球被引用次数最多的论文;系统负责人朱亦博也是 AI 系统方向的顶级专家,曾任字节跳动任 AI Infra 负责人,从零开始建设国内最大规模的 AI Infra。

除核心领军人物之外,人才密度高也是阶跃星辰的一大优势,目前公司研发人员占比 80% 以上,拥有多位计算机视觉和自然语言处理领域的顶尖研究员。

在过去一年左右的时间里,阶跃星辰持续领跑多模态领域,收割国内外多个权威榜单的第一名。不仅是技术的沉淀,在“超级模型加超级应用”的双轮驱动策略中,阶跃也基于自身的基础模型矩阵优势,差异化地寻找合适的应用形态。

而 Agent 所需要的多模态和慢思考能力,是阶跃的长处所在。因此,阶跃水到渠成地将智能终端 Agent  视为大模型技术落地的核心突破点,最终形成一个从模型到 Agent,从云侧到端侧的生态体系。

当下,汽车、手机、具身智能、IoT 等关键应用场景是阶跃突破的重点。面向手机终端,阶跃星辰与OPPO等手机厂商推出了“一键问屏”、“一键全能搜”功能;面向具身智能,阶跃星辰与智元机器人、原力灵机达成战略合作,共同探索 AI+具身机器人应用场景。

除了技术和应用,阶跃星辰在商业化上也是实践派。有开发者反馈,阶跃多模态模型的用户付费率最高。其中,头部茶饮品牌茶百道全国数千家门店已经接入阶跃星辰 Step-1V 多模态理解大模型,完成智能巡检、AIGC 营销等工作。

3

基模竞争中的关键一极

当前国内大模型的竞争已从“百模大战”进入“精耕细作”阶段,应用层的创新绕不过基础模型的能力边界,无论是复杂推理、长上下文理解,还是跨领域知识迁移,均依赖底层模型的智能上限。

多模态能力是突破智能上限的关键路径——通过融合文本、图像、音频等多维信号,模型对世界的理解更接近人类认知范式,也更靠近 AGI。随着 AI 技术的进一步发展可以见得,多模态能力已从“可选项”到“必争项”。要想在下一轮竞争中取得优势,多模态是一块必争之地。

身为多模态卷王的阶跃星辰,凭借清晰的技术路线和坚定的持续投入,已经积累了多模态方面的差异化优势。多模态能力的提升也反哺了阶跃的基础大模型矩阵,在未来可见的具身智能、世界模型等前沿方向阶跃也会“近水楼台先得月”,成为基座大模型竞争中的关键一极。

 

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值