AI 手机的形态,再次进化了。
已经快「卷到头」的手机芯片,终于迎来了一次能力突破。
今年刷爆整个科技圈的 AI 视频生成,不打招呼就落地到了手机上。
很多大厂还在邀请测试中的 AI 短视频生成能力,现在用手机算力就可以本地搞定了。
大模型的训练,现在也可以在端侧完成:勾选手机相册里的几十张照片,我们就可以构建出个性化 LoRA 模型,然后生成独有的数字分身。
端侧的 AI 训练能力不仅可以保护数据隐私,还可以花式提升拍照技术。
比如这个生成式 AI 修图功能,通过训练已有的照片就能自动修正新照片中的模糊、暗光等问题。以后拍照时再也不用担心抓不住经典瞬间了。
相比之下更加「基础」的能力,如多模态大模型的推理,也可以在手机端侧进行:
无论是拍数学题让 AI 解题,还是看一张外文菜单让 AI 帮忙点菜,都是几秒钟就能办到的事。
这一系列技术的驱动力,都来自联发科上个星期推出的新一代旗舰 5G 智慧体 AI 芯片天玑 9400。
发布没多久,它就成为了 2024 年旗舰手机芯片的标杆,而且随着 vivo X200 系列手机的上市,马上就会与我们见面。
在这块芯片的帮助下,手机的 AI 算力获得了大幅提升,前沿大模型算法获得了来自底层的优化,无数 App 之间的壁垒也被打通。
而众多手机的用户,即将见证一场人机交互体验的变革。
AI 算力暴增,全面承载 AI 应用生态
天玑 9400 被称作是 AI 时代的新里程碑,它是一块专门为 AI 时代打造的芯片。
首先,天玑 9400 在算力和能效上都达到了新的高度:在 AI 领域权威的评测基准 AI Benchmark 最新榜单中,它以 6773 分的成绩名列第一,是上一代分数的 1.4 倍。
这并不是一个极限状态下的参考值,而是可以落地到实际体验层面上的性能提升。因为新制程和新架构的加持,天玑 9400 在进行 AI 计算任务时的平均功耗还降低了 35%。
说到实用程度,天玑 9400 带来了一大串业内第一,其中包括但不限于:
-
首发天玑 AI 智能体化引擎;
-
端侧高画质视频生成能力 —— 可实现本地的微电影创作;
-
支持端侧 AI 训练 —— 可实现本地 LoRA 训练;
-
业界首发支持端侧混合专家模型(MoE),全面实现端侧 NPU 上运算;
-
独特的 backpropagation 算子硬件训练加速;
-
独特的时域张量 (Temporal Tensor) 硬件指令加速。
面向生成式 AI 时代,天玑 9400 不仅着重提升了 AI 算力,也针对大量软件、算法进行了优化。它带来了更强的 AI 性能、多模态、高速 Token 输出,可以实现端侧大模型的隐私训练。
它采用的联发科第八代 NPU 890,率先支持了端侧 LoRA 训练和端侧高画质视频生成,AI 性能和能效得到显著提升。相较于上一代产品,天玑 9400 的大语言模型(LLM)提示词处理能力提升了 80%,为大量新一代 AI 应用打好了计算底座。
通过基础算力的提升,手机的原生 App 可以实现大模型与应用的分离管控,结合端侧大模型的 RAG + LoRA,让云端的 AI 助手变成了本地智能助手。另一方面,通过定义标准的接口,手机上互相独立的智能应用实现了双向交流,我们第一次拥有了一体化的智能体验。
AI 解决方案的碎片化,可能是未来一段时间内各家手机厂商面临的挑战。天玑 9400 与很多科技公司、AI 创业公司进行了深度合作,包括阿里云、百川智能、Google、面壁智能、Meta、微软、零一万物、腾讯混元、百度文心等,实现了对主流大模型的大面积优化。
9 月 26 日,在 Meta 发布开源大模型标杆 Llama3.2 的同时,联发科也正式宣布与 Meta 合作完成了新模型 1B、3B、11B 等版本的端侧部署。
通过上到应用厂商,下到硬件架构的全链路优化,搭载天玑 9400 的智能手机就能够在本地运行更为复杂的大模型,承载起前所未有的丰富应用生态。
AI 智能体的「iPhone 时刻」
在天玑 9400 的一系列新能力中,业界首款「AI 智能体化引擎」最为引人关注,它能够支持端侧的智能体级硬件加速。
我们知道,面对日益增长的 AI 算力需求,近年来很多芯片厂商陆续提出了针对卷积、Transformer 架构的硬件优化。而这一次,联发科直接把优化提升到了智能体的层面。
究其原因,在技术爆发的背景下,AI 智能体已是大模型应用不得不走的方向。
「AI 智能体」可以定义为:一个被赋予行动能力的 LLM,可在环境中对如何执行任务做出高层次的决策。
通过对工作流程的自动化、增强决策能力和提供个性化体验,智能体技术就像一个倍增器,大幅增强了大模型的应用范围和能力。
首先,面对复杂的任务,智能体可以进行规划:它将大型任务分解为若干更小、易处理的子目标,每个子任务由一个更小、更专业的工具处理,从而高效处理复杂的任务。智能体可以进行反思和完善,对过去的行为展开自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,提高最终结果的质量。
其次,智能体提升了大模型的记忆能力:在大模型的工作过程中,大部分上下文学习都是利用模型的短期记忆来进行的。智能体利用外部向量存储和快速检索等机制,提供了长时间保留和回忆「无限」信息的能力。
最后是工具的使用:智能体可以学会调用外部 API ,利用多种工具来获取额外能力,包括当前信息、代码执行能力、对专有信息源的访问等。
AI 智能体系统概览。图片来自:https://lilianweng.github.io/posts/2023-06-23-agent/
简单来说,利用智能体,小模型可以实现大模型才能完成的任务,大模型可以尝试以前无法想象的任务。通过智能体的方式,大模型技术可以获得更好的普及应用, 让 AI 表现出我们真正期待的样子。
比如前不久,来自 FutureHouse、罗切斯特大学等机构尝试构建的科研智能体 PaperQA2,它在检索和总结任务上的表现已经超过了人类博士后。
除了一系列研究论文,很多科技公司正在涉足 AI 智能体领域。然而,在见证了许多 AI 智能体的尝试之后,我们会发现它们距离实用化似乎仍为时过早。
比如在手机上,虽然智能体在使用工具、工具调用的方面很有潜力,但仍然面临着速度较慢、成本高、以及应用间接口不统一,调用难等问题。
天玑 9400 的 天玑 AI 智能体化引擎,率先开启了 AI 智能体产品化的竞赛。
联发科正在积极与开发者合作,为 AI 智能体、第三方应用程序和各种大模型提供统一的标准接口,实现 AI 跨应用的快速互联,提升端侧 AI 计算的体验。
让 AI 手机学会自主思考
当前,AI 前沿算法的更新速度几乎以天计,人们对于大模型应用的能力需求已经逐渐上升到多模态、多任务、多领域的层级上。
在人们的设想中,人与手机之间的沟通会覆盖语音、文字、图片等多模态内容。AI 手机可以清晰地理解你的意图,也可以根据你的位置、喜好、环境等制定出可用计划,进而自动帮你完成各类任务。相比过去简单的 AI 语音助手,有智慧的 AI 可以对话交流,进行决策,进而变得更加「主动」。
新的范式下,智能手机需要展现出三种关键能力:自主化理解需求、自动推理策略以及自动完成任务。
在手机上,一端是大模型这样的新技术,另一端是无数我们现在每天在用的 App。联发科指出,在手机端侧 AI 能力升级后,很多传统应用都会变得更加智能化。
天玑 9400 在发布时就为我们演示了一系列应用在「智能体化」后的新玩法。
在新一代手机上,点餐应用会记得你的个人喜好,并感知环境给出有用的建议;出行 App 可以跨应用获得行程规划,自动根据你的习惯预定酒店;购物 App 也可以根据特定复杂的需求,快速挑选出合适的潮品……
这样复杂的操作,很大程度上是通过把用户需要完成的任务切分成多个步骤,通过智能体 AI 来一步步实现的。而且只有手机充分利用起端侧 AI 的处理能力,在日常不间断的交流不断加深对使用者的理解,AI 才能给出有用的建议。
因此我们会发现:天玑 9400 实现的端侧 AI 算力和赋能应用智能体级的优化,大幅提升了手机智能化的上限,也是 AI 手机进化的必要条件。
只有做到了这一步,手机才算是由「智能」进步到了「智慧」的层面,改变了人机沟通的方式。
这不由得让我们想到了苹果在今年 6 月发布 Apple intelligence 时展示的愿景:生成式 AI 的应用,必须强大、直观、完全整合、个性化且保护隐私。
作为目前唯一一家从芯片层面上打通 App 之间 AI 能力壁垒的厂商,联发科提前兑现了我们对 AI 手机的期待。
结语
种种迹象表明,生成式 AI 的应用已经到了新的节点。
上个月 OpenAI 发布的新一代大模型 o1,为我们打开了未来的想象空间。
现在,AI 终于拥有了足够强大的思维能力。OpenAI CEO 山姆・奥特曼发表长文,对智能时代提出了设想:「我们将拥有解决困难问题的工具,与 AI 的合作可以大幅提升工作效率。最终,每个人都会拥有一个由不同领域虚拟专家组成的个人 + AI 的团队。」
OpenAI 代表着技术革新的一面,它推崇的思维链和强化学习正在开拓大模型的前沿方向,或许在几千天之后,我们就会见证「超级智能」的诞生。
而在人们每天都在使用的智能手机上,革新也已显现。
天玑 9400 通过一系列技术突破,在芯片端侧 已经具备了完整的生成式 AI 能力,正在帮助 AI 手机走向智能体化。
不得不说,在计算摄影、折叠屏等方向以外,我们终于看到在手机、芯片和应用厂商的不懈努力下,生成式 AI 构建 AI 智能体成为了新的发展方向,也从底层革新了智能手机的用户体验。未来的智能手机,还可以帮助我们做到更多。
天玑 9400 将首发搭载于 vivo X200 系列手机上。在这之后,OPPO、小米等各家厂商的产品也会接踵而至。
有趣的是,在联发科的发布会上,核心合作厂商米 OV 的高管们轮流上台,都宣称自己是天玑调校最好的那一家。这一次,哪家会率先在 AI 智能体上展现出真本事?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。