哥伦比亚大学:超越Chatgpt的AI agent综述,关于AI智能体的演进、关键技术与未来发展...

图片

“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。(点击这里查看欧米伽理论

来源:欧米伽未来研究所

本报告由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。

图片

在人工智能飞速发展的当下,AI 智能体正逐渐成为备受瞩目的焦点。从传奇人物比尔・盖茨到知名学者吴恩达、山姆・奥特曼,他们都对 AI 智能体的潜力寄予厚望,认为其将掀起计算领域继图形用户界面之后的又一场重大革命,引领 AI 取得巨大进步。那么,AI 智能体究竟是什么?它又有着怎样的神奇之处呢?

AI 智能体:智能交互新范式

图片

AI 智能体是一种能够感知环境、进行思考和推理、做出决策并执行相应行动的人工智能系统。它就像是拥有 “智慧大脑” 的数字精灵,可以接收文本、图像、音频等多种模态的输入信息,如同人类通过各种感官感知世界一样。接着,借助大语言模型(LLM)的强大能力,智能体能够进行思维链推理,规划出行动步骤,这一过程如同人类在面对问题时思考解决方案。而且,智能体还具备反思能力,能够根据行动的结果进行元推理,不断优化自己的行为。

从应用层面来看,AI 智能体的发展可划分为多个阶段。最初是 “Just Wanna Chat” 阶段,智能体仅能简单地基于自身知识回应人类提示,如同一个知识储备有限的聊天伙伴。随着发展,进入 “Your Work Assistant” 阶段,它演变成以 LLM 为核心的软件系统,能辅助完成现实世界的任务,例如帮助人们处理工作中的文档撰写、数据整理等事务。再进一步,“Agent-as-a-Service” 阶段的智能体成为以服务为中心的系统,能自动化执行预定义的工作流程,大大提高工作效率。更高级的 “Autonomous Agents” 阶段,智能体具备高度自主性,在日常任务中几乎无需人类监督,如同一个可靠的工作伙伴。而最理想的 “Human, hold my beer” 阶段,智能体类似达到 L5 级自动驾驶水平的系统,实现真正的自主决策和行动,在复杂环境中灵活应对各种任务。

模型自我提升:解锁智能新高度

在 AI 智能体的发展进程中,模型自我提升至关重要。以往研究发现,通过提示进行自我提升的方法对小型语言模型(LM)效果不佳,小型 LM 存在无法通过提示实现自我提升,也难以从 LLM 的示范中学习 “自我提升” 能力等问题。

图片

为解决这些难题,研究人员提出了创新方法。他们把 “自我提升” 视为一个可学习的任务,将 LLMs 或 Python 脚本当作教师模型。具体操作中,先让小型 LM 尝试解决问题,教师模型根据尝试结果给出反馈并修改,之后把这种互动经验重新用于训练小型 LM。这一过程就像是学生在老师的指导下不断改进自己的解题方法。通过这种方式生成 “自我提升” 数据,再利用这些数据训练小型 LM,显著提升了模型的性能。

在多步算术、单词排序、日期理解和逻辑演绎等复杂任务测试中,采用这种方法训练的模型表现出色。比如在多步算术任务上,经过多次迭代训练的模型,准确率大幅提高。这表明让模型在没有人类监督的情况下提升性能是可行的,不过目前该方法也存在一定局限,比如需要强大的编辑 LLM 进行监督。

树搜索策略:增强模型决策力

许多对话任务本质上是决策过程,为提升模型在这些任务中的决策能力,研究人员引入了树搜索策略。借鉴国际象棋等游戏中的前瞻搜索思想,在对话决策过程中,模型可以通过树搜索来探索多种可能的行动方案。具体来说,就是借助 LLM 来搜索有前景的行动、模拟行动结果、评估行动质量,并更新对每个行动质量的估计。

图片

以劝说任务为例,研究人员使用 “Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning”(GDP-Zero)方法,在劝说人们向慈善机构捐款的任务中,该方法生成的策略比基础 LLM 更具说服力,提高了对话任务的成功率。这一策略不仅使聊天机器人的捐款概率、增强捐款意愿、提出有力论据等方面表现更优,还能避免过度急切地提出捐款请求,采用更平衡的策略,融合情感和逻辑诉求,从而更好地达成劝说目标。不过,目前该策略在对话任务之外的扩展应用,以及如何将改进后的行为通过训练反馈到模型中,仍是有待解决的问题。

强化学习与探索式学习:驱动智能体进化

在与计算机交互的视觉语言模型(VLM)任务中,研究人员面临着巨大挑战,因为传统 VLM 预训练并未涉及与计算机的交互。为提升智能体在这类任务中的表现,研究人员提出了两种关键方法:基于对比自反思的蒙特卡洛树搜索(R-MCTS)和探索式学习。

图片

R-MCTS 在执行任务时,通过树搜索寻找最优行动轨迹,任务完成后进行对比自反思,分析行动的优劣,从而改进未来的执行效果。在 VisualWebArena 和 OSWorld 等基准测试中,R-MCTS 表现卓越,超越了其他搜索算法,在 VisualWebArena 上达到了新的最优成绩,在 OSWorld 上也极具竞争力。探索式学习则通过对树遍历进行训练,让智能体在探索、评估和回溯过程中学习,使 GPT-4o 在经过 R-MCTS 树的探索式学习后,即使不借助搜索算法增强,也能展现出计算扩展的特性,显著提升了智能体在训练阶段的性能。

未来展望:机遇与挑战并存

AI 智能体的发展前景广阔,但也面临诸多挑战。在技术层面,尽管取得了不少进展,但仍需进一步提高智能体的自主性、泛化能力和学习效率。例如,减少对树搜索的依赖,探索强化学习等其他方法,以优化智能体的决策过程;利用模型预测控制(MPC)方法,降低与环境交互的成本,提高智能体在复杂环境中的适应性。在实际应用中,AI 智能体要实现更广泛的应用,需要解决与现有系统的集成问题,确保其能与不同的软件和硬件平台兼容。同时,还需关注数据隐私和安全问题,保障用户信息不被泄露和滥用。

图片

Arklex 作为一个创新的组织框架,为 AI 智能体的发展提供了新的思路。它支持混合控制,使智能体能够根据用户需求和构建者目标灵活应对各种任务;通过任务组合,将复杂的现实任务拆解为可复用的模块,提高执行效率和扩展性;强调人类干预,确保关键决策的准确性和用户偏好的优先性;还支持持续学习,让智能体在不断交互中进化,保持与动态环境的相关性和有效性。与其他框架相比,Arklex 在开源性、混合控制、任务组合、人类干预和持续学习等方面具有独特优势,为 AI 智能体的发展开辟了新的方向

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

dad5bbe93c8026aaeed927193bff7552.jpeg

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

3bff30d0fa65f365007f00ecd3462f94.jpeg

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. 2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案

  2. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  3. Deepmind:AI 加速科学创新发现的黄金时代报告

  4. Continental 大陆集团:2024 未来出行趋势调研报告

  5. 埃森哲:未来生活趋势 2025

  6. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  7. 哈尔滨工业大学:2024 具身大模型关键技术与应用报告

  8. 爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告

  9. 李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能

  10. 欧洲议会:2024 欧盟人工智能伦理指南:背景和实施

  11. 通往人工超智能的道路:超级对齐的全面综述

  12. 清华大学:理解世界还是预测未来?世界模型综合综述

  13. Transformer 发明人最新论文:利用基础模型自动搜索人工生命

  14. 兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告

  15. 麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现

  16. 兰德公司:新兴技术领域的全球态势综述

  17. 前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战

  18. 美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)

  19. 罗戈研究:2024 决策智能:值得关注的决策革命研究报告

  20. 美国航空航天专家委员会:2024 十字路口的 NASA 研究报告

  21. 中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

  22. GenAI 引领全球科技变革关注 AI 应用的持续探索

  23. 国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告

  24. 2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿

  25. 多模态可解释人工智能综述:过去、现在与未来

  26. 【斯坦福博士论文】探索自监督学习中对比学习的理论基础

  27. 《机器智能体的混合认知模型》最新 128 页

  28. Open AI 管理 AI 智能体的实践

  29. 未来生命研究院 FLI2024 年 AI 安全指数报告 英文版

  30. 兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版

  31. Linux 基金会 2024 去中心化与人工智能报告 英文版

  32. 脑机接口报告脑机接口机器人中的人机交换

  33. 联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版

  34. Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版

  35. Gartner2025 年重要战略技术趋势报告 英文版

  36. Fastdata 极数 2024 全球人工智能简史

  37. 中电科:低空航行系统白皮书,拥抱低空经济

  38. 迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战

  39. 哈佛博士论文:构建深度学习的理论基础:实证研究方法

  40. Science 论文:面对 “镜像生物” 的风险

  41. 镜面细菌技术报告:可行性和风险

  42. Neurocomputing 不受限制地超越人类智能的人工智能可能性

  43. 166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)

  44. 未来生命研究所:《2024 人工智能安全指数报告》

  45. 德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。

  46. 2024 世界智能产业大脑演化趋势报告(12 月上)公开版

  47. 联邦学习中的成员推断攻击与防御:综述

  48. 兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

  49. Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版

  50. Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版

  51. MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告

  52. DeepMind:Gemini,一个高性能多模态模型家族分析报告

  53. 模仿、探索和自我提升:慢思维推理系统的复现报告

  54. 自我发现:大型语言模型自我组成推理结构

  55. 2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书

  56. 《自然杂志》2024 年 10 大科学人物推荐报告

  57. 量子位智库:2024 年度 AI 十大趋势报告

  58. 华为:鸿蒙 2030 愿景白皮书(更新版)

  59. 电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209

  60. 中国信通院《人工智能发展报告(2024 年)》

  61. 美国安全与新兴技术中心:《追踪美国人工智能并购案》报告

  62. Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?

  63. NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习

  64. LangChain 人工智能代理(AI agent)现状报告

  65. 普华永道:2024 半导体行业状况报告发展趋势与驱动因素

  66. 觅途咨询:2024 全球人形机器人企业画像与能力评估报告

  67. 美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告

  68. GWEC:2024 年全球风能报告英文版

  69. Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析

  70. 2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告

  71. 世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度

  72. 兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告

  73. 经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告

  74. 医学应用中的可解释人工智能:综述

  75. 复旦最新《智能体模拟社会》综述

  76. 《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述

  77. 《基础研究,致命影响:军事人工智能研究资助》报告

  78. 欧洲科学的未来 - 100 亿地平线研究计划

  79. Nature:欧盟正在形成一项科学大型计划

  80. Nature 欧洲科学的未来

  81. 欧盟科学 —— 下一个 1000 亿欧元

  82. 欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划

  83. DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告

  84. 兰德《人工智能和机器学习用于太空域感知》72 页报告

  85. 构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)

  86. 世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版

  87. 人工智能行业应用建设发展参考架构

  88. 波士顿咨询 2024 年欧洲天使投资状况报告 英文版

  89. 2024 美国制造业计划战略规划

  90. 【新书】大规模语言模型的隐私与安全

  91. 人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204

  92. 美国环保署 EPA2024 年版汽车趋势报告英文版

  93. 经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版

  94. 华为 2024 迈向智能世界系列工业网络全连接研究报告

  95. 华为迈向智能世界白皮书 2024 - 计算

  96. 华为迈向智能世界白皮书 2024 - 全光网络

  97. 华为迈向智能世界白皮书 2024 - 数据通信

  98. 华为迈向智能世界白皮书 2024 - 无线网络

  99. 安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版

  100. 2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告

  101. 《2024 年 AI 现状分析报告》2-1-3 页.zip

  102. 万物智能演化理论,智能科学基础理论的新探索 - newv2

  103. 世界经济论坛 智能时代的食物和水系统研究报告

  104. 生成式 AI 时代的深伪媒体生成与检测:综述与展望

  105. 科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版

  106. 计算机行业专题报告 AI 操作系统时代已至 - 241201

  107. Nature 人工智能距离人类水平智能有多近?

  108. Nature 开放的人工智能系统实际上是封闭的

  109. 斯坦福《统计学与信息论》讲义,668 页 pdf

  110. 国家信息中心华为城市一张网 2.0 研究报告 2024 年

  111. 国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版

  112. 大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战

  113. 毕马威 2024 年全球半导体行业展望报告

  114. MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119

  115. DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管

  116. 《人工智能和机器学习对网络安全的影响》最新 273 页

  117. 2024 量子计算与人工智能无声的革命报告

  118. 未来今日研究所:2024 技术趋势报告 - 广义计算篇

  119. 科睿唯安中国科学院 2024 研究前沿热度指数报告

  120. 文本到图像合成:十年回顾

  121. 《以人为中心的大型语言模型(LLM)研究综述》

  122. 经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

  123. 波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版

  124. 理解世界还是预测未来?世界模型的综合综述

  125. GoogleCloudCSA2024AI 与安全状况调研报告 英文版

  126. 英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

  127. 花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

  128. 国际可再生能源署 IRENA2024 年全球气候行动报告

  129. Cell: 物理学和化学 、人工智能知识领域的融合

  130. 智次方 2025 中国 5G 产业全景图谱报告

上下滑动查看更多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值