01 2024 年,模型能力小年,AI Agents 智能体的大年
2024 年即将结束,今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布,2024 年是模型能力的小年,但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent,试图打破目前 LLM 的技术平台期。
Anthropic 发布 Computer Use
2024 年 10 月,Anthropic 已经推出了名为“Computer Use”的 AI Agent。Anthropic 开发了一个特殊的 API,允许开发者指导 Claude 完成各种计算机操作任务。这些任务包括查看屏幕内容、移动光标、点击按钮以及打字等。开发者可以通过这个 API 将书面指令转换为具体的计算机指令,从而实现自动化任务。
OpenAI 重新定义 AGI 路线,Agents 和工具调用是后续重点
在 7 月 12 日,OpenAI 举行了一个全体员工会议,设计了一个从 1 到 5 的"AI 成长等级,更新定义了 AGI 的路线图。OpenAI 认为自己目前处于第 1 级,但接近达到第 2 级。从第3阶段起的 Agents、Innovators、Organizations,是具备高推理能力的模型基础上,依靠外部工程手段实现的智能体框架,已经脱离大模型能力范畴。
图片来源:OpenAI
据彭博社报道,OpenAI 即将推出一款代号为"Operator"的软件,可以直接对个人电脑进行操作。这款工具能够自动执行包括编写代码、预订旅行、自动电商购物等复杂任务,并计划作为研究预览版向开发者开放 API 接口。"Opertaor "预计将在 2025 年 1 月发布。
微软也在加快 AI Agent 的脚步
今年 10 月,在伦敦举行的"AI Tour"活动上,微软对外公布了一项重要计划:面向 Dynamics 365 业务应用平台,开发部署 10 款专业 AI 助手。这批智能代理将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照发布时间表,这些 AI 助手将在年底开放公测,测试阶段预计延续到 2025 年初期。
国内大模型公司紧随其后
同时期,国内大模型公司智谱发布 AI Agent 项目 AutoGLM 。AutoGLM 的任务执行需要通过无障碍服务权限获取用户当前屏幕上的信息,基于此进行理解分析并且做出任务规划,实现手机上常用操作的模拟执行。只需接收简单的文字/语音指令,它就可以模拟人类操作手机,在微信朋友圈评论点赞,在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖等等。11月的升级发布,将支持自主执行超过54步的长步骤操作,也可以跨 App 执行任务。还发布基于 PC 的自主 Agent GLM-PC ,可以自主完成会议替身、文档处理、网页搜索与总结、远程和定时操作等功能。
02 Agent 趋势:强自主性、视觉、任务操作,开始向 OS 迈步
Agent 发展趋势:
1. 强自主性:
AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑,以此取代手动编码。这种方式需要经历完整的实施周期:从前期的业务流程分析,到中期的部署实施,再到后期因界面或句柄变更而进行的重新部署。
相比之下,AI Agent 展现出更高层次的智能自主性:它只需要一个明确的目标指令,就能够自主完成任务的分解与执行。在纯软件环境中,AI Agent 的能力范围已相当广泛,从网页浏览、办公软件操作,到购买决策分析,甚至能够执行支付操作等复杂任务,体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。
2. 复杂工具调用:
Agent 需要有丰富的工具调用能力,从基础的代码函数、应用程序,到复杂的 AI 模型,乃至硬件设备的运动控制算法。在实际运行中,大语言模型(LLM)通过文本形式对这些工具进行智能选择,并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后,LLM 便能够自主地进行工具调用和任务执行,实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性,也为 AI Agent 的能力边界提供了持续扩展的可能。
3. 视觉能力:
视觉能力意味着,**AI 解除了获取用户界面和物理世界信息的限制,模型将可以与人类使用相同类型 UI,**而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息,从而深入用户场景。
视觉的信息丰富度远远超过文字。因此,视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”,还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上,CogAgent 模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
LLM 为中心的操作系统蓝图,正在逐渐清晰
已经离开 OpenAI Andrej Karpathy,曾在在 23 年发表了关于 LLM 操作系统(LLM OS)的愿景,他的想法是语言模型在某种程度上是一种新型计算机,一种新型操作系统。大语言模型置于计算系统的核心位置,类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备(如视频、音频)、传统软件工具(如计算器、Python 解释器)、存储系统以及网络资源(浏览器、其他 LLM)
从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式:传统计算机需要精确的指令序列,而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升:就像 CPU 让程序员不必关心底层电路细节,LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互:Agent 替代人完成作步骤,普通用户也能完成复杂的计算任务
03 软硬结合的 LLM-OS 将成为 AI 落地的深水区
应用的繁荣来自于端侧操作系统的成熟
桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟,移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣,也将依赖于 AI 操作系统的繁荣。
前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ,并希望通过创建一个统一的平台来填补这一空白,使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金,正致力于基于云的操作系统将跨设备工作,并利用生成性人工智能提供个性化用户界面。
大模型操作系统 LLM-OS 前夜已到
大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作,软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。这种全面的操控和协调能力,正是未来 LLM 驱动的操作系统的核心特征。
智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use, 全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地,未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景,分别从不同的场景出发,展望智能终端的实践。
可以说大模型通用操作系统 LLM-OS 的前夜已经到来。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。