智能化软件开发微访谈·第三十八期 Agent进化论:大模型驱动的智能应用创新

CodeWisdom

Agent进化论:大模型驱动的智能应用创新·微访谈

背景介绍

    当前,人工智能正从“工具赋能”迈向“原生智能”的新阶段,以LLM(大语言模型)为基座的AI Agent技术成为重构人机交互范式的核心引擎。AI 原生应用已不再局限于简单的功能叠加,而是通过自主决策、动态规划和多模态理解能力,深度融入用户场景。从AutoGen提供的多智能体(Multi-Agent)协作范式,到 Manus等平台探索的模块化Agent设计思路,再到Responses API所实现的高精度意图解析与上下文控制,开发者可以越来越方便和快速地构建具备复杂任务处理能力的智能体。与此同时,基于Agent的终端应用正掀起“设备智能化革命”:手机端AI助手可自主管理日程、预判需求并执行跨应用操作;PC端智能体则化身生产力协作者,实现代码生成、文档分析与工作流自动化的一站式闭环。那么,基于大模型的Agent经历了什么样的发展历程?大模型驱动的智能应用创新带来了什么样的软件和应用生态变化?相关的开发、测试、运维以及安全、隐私和可靠性保障等方面面临着什么样的新的问题和挑战?由此产生的“AI原生”和“AI OS”等概念和技术体系和产业生态将会如何发展?围绕这些问题,我们邀请了多位来自学术界和工业界的专家共同探讨和交流,希望能对当前的发展浪潮与未来的发展趋势有一个客观冷静认识和理解。

主 持 人

彭鑫

复旦大学

复旦大学计算机科学技术学院副院长、教授,教育部长江学者特聘教授。中国计算机学会杰出会员、软件工程专委会副主任,《Journal of Software: Evolution and Process》联合主编(Co-Editor),《ACM Transactions on Software Engineering and Methodology》、《Empirical Software Engineering》、《Automated Software Engineering》、《软件学报》等期刊编委。2016年获得NASAC青年软件创新奖,2023年入选上海市东方英才拔尖项目。主要研究方向包括软件智能化开发、云原生与智能化运维、泛在计算软件系统、智能网联汽车基础软件等。研究工作多次获得IEEE Transactions on Software Engineering年度最佳论文奖、ICSM最佳论文奖、ACM SIGSOFT杰出论文奖、IEEE TCSE杰出论文奖等奖项。担任2022年与2023年CCF中国软件大会(ChinaSoft)组织委员会主席与程序委员会共同主席,以及ICSE、FSE、ASE、ISSTA、ICSME、SANER等会议程序委员会委员。

访

王昊奋

同济大学

同济大学百人计划特聘研究员,博士生导师。他是全球最大的中文开放知识图谱联盟OpenKG轮值主席。他负责主持多项国家AI专项,发表100余篇AI领域高水平论文。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过10亿人次。目前,他担任中国计算机学会术语工委副主任,自然语言处理专委秘书长,信息系统专委常委,智能机器人专委会执委;中国中文信息学会理事,大模型专委会指导委员会委员,语言与知识计算专委会副秘书长;中国指挥控制学会大模型专委会常务委员;上海市计算机学会自然语言处理专委会副主任等社会职位。

张奇

复旦大学

复旦大学计算机科学技术学院教授、博士生导师。兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF 大模型论坛常务委员、CIPS 信息检索专委会常务委员、CIPS 大模型专委会委员。主要研究方向是自然语言处理和信息检索,聚焦大语言模型、自然语言表示、信息抽取、鲁棒性和解释性分析等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。近年来承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议发表论文200余篇,获得美国授权专利4项,著有《自然语言处理导论》和《大规模语言模型:理论与实践》,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award等奖项。

徐梦炜

北京邮电大学

徐梦炜,北京邮电大学计算机学院副教授,博士生导师。于北京大学获得本科与博士学位,普渡大学访问学者。主要研究领域为面向资源受限端侧场景的大模型/智能体/操作系统技术,相关成果发表于ACM MobiCom/MobiSys/ASPLOS /IEEE TMC/软件学报等国内外重要会议期刊,获USENIX ATC 2024最佳论文奖。

吴承霖

DeepWisdom

吴承霖,DeepWisdom 创始人兼CEO。拥有十亿级用户的大规模 AI 落地经验;开源多智能体框架 MetaGPT(mgx.dev) 作者,开源项目总计超过 130k star;NeurIPS AutoDL、NeurIPS AutoWSL、KDDCup OGB-LSC 等竞赛世界冠军;论文发表于 TPAMI、ICLR、KDD、CVPR、AAAI 等;曾获福布斯 30U30,腾讯、华为数十奖项。

孙志岗

AI师傅

孙志岗,AI 师傅创始人、CEO。曾任在线教育独角兽合伙人、首席产品官兼 CTO;得到 App 副总裁/教学教务和中台系统负责人;网易教育事业部首席产品架构师/战略总监/网易云课堂运营负责人;哈尔滨工业大学计算机学院副教授。

任晗

华为

OpenHarmony技术指导委员会应用开发工程技术TSG主任。华为OpenHarmony/HarmonyOS开发者平台软件首席架构师,负责鸿蒙操作系统开发者技术平台架构设计。长期专注于软件工程、系统能效设计、编程语言和编译器等领域研究和实践。

刘焕勇

360人工智能研究院

360人工智能研究院知识图谱及文档理解算法方向负责人。曾就职于中国科学院,主持研制全行业事理图谱、360百科图谱、知识图谱平台、360版式分析模型等项目,360智脑大模型前核心成员,申请发明专利十余项、论文数篇,对外开源项目70余项。近年来 在OGB-Wikikg2实体链接、ICPR多行数学表达式识别、CCKS多模态实体对齐、可解释类案匹 配等评测中获得多项冠亚军,创立老刘说NLP技术社区,具备广泛影响力。

李萌

珊瑚智成

珊瑚智成创始人、CEO,北京大学计算机软件与理论专业博士、浙江大学计算机专业博士后,人工智能方向连续创业者。2014年特招加入方正集团,“方正国际合伙人”第一人,负责医疗大数据业务;2016年初创立互联网医疗公司,同年被上市公司收购;2016年底创立行数通,推出面向企业的智能信息助理服务,实现了商业信息的自动收集、整理与分发,为国家部委及企业提供常年服务;2023年创立珊瑚智成,解决应用类软件的智能开发问题,目前已实现无代码方式搭建完整前后端软件,并由机器生成全量开源代码,软件搭建及代码生成能力全球领先。

周子杭 

面壁科技

朋克周,本名周子杭,面壁科技创始人,AI科技自媒体博主。江湖人称“赛博单口相声艺术家”,一个能把AI讲成脱口秀的科技界“甲亢rapper”。两年怒肝500多期视频,圈粉百万。粉丝锐评:“别人讲技术像念经,朋克周讲AI像听德云社开箱——笑着笑着就学会了反向传播”。

访谈主题

Agent进化论:大模型驱动的智能应用创新

01

基于大模型的Agent技术的核心思想和基本要素是什么?与大模型的关系是什么?在当前基于大模型的应用体系中Agent扮演着什么样的角色,发挥着什么样的作用?基于大模型的Agent技术经历了什么样的发展过程?其优化和改进方向以及背后的核心发展逻辑是什么?

02

近期包括Manus在内的通用智能体引发了广泛的关注和激烈的讨论,您是如何看待这一话题的?这方面技术的主要机理和创新是什么?实际应用效果如何?此外,近期发布的Responses API、MCP协议及Agents SDK等这一系列技术体系构建了什么样的Agent开发模型和模式?

03

当前,大模型和Agent技术已经开始在手机和PC等终端设备上应用,实现AI助手和AI PC等新的产品形态。在智能手机和智能汽车等领域,“去APP化”已经成为一种流行的口号。那么,您如何看待大模型驱动的智能应用创新的现状以及所面临的机会?同时,这一创新发展的趋势背后将带来什么样的生态变革?例如,已有的APP如何接入并支持Agent应用?APP厂商的角色定位以及生存模式将发生什么样的变化?如何构建多方参与共赢的良性生态格局?

04

如何看待Dify这样的工具在大模型驱动的智能应用创新中所发挥的作用?与传统软件应用相比,大模型驱动的智能应用在开发、测试、运维等方面面临什么样的新问题和新挑战?特别是大模型驱动的智能应用所带来的安全、隐私和可靠性等方面的问题应当如何解决?

05

随着大模型和Agent技术的发展,“AI原生”的概念逐渐深入人心。那么“AI原生”的含义和特征是什么?这一概念如何改变未来的软件应用和服务形态?作为支撑“AI原生”的基础设施被提出的“AI OS”的含义是什么?与传统的OS的关系和区别是什么?大模型驱动的Agent进化与智能应用创新未来的发展方向会是什么样的?

Q&A记录

Question 1

主持人:基于大模型的Agent技术的核心思想和基本要素是什么?与大模型的关系是什么?在当前基于大模型的应用体系中Agent扮演着什么样的角色,发挥着什么样的作用?基于大模型的Agent技术经历了什么样的发展过程?其优化和改进方向以及背后的核心发展逻辑是什么?

王昊奋:

    基于大模型的Agent技术的核心思想是赋予大模型自主执行任务的能力,其基本要素包括大语言模型作为认知引擎、以及工具使用能力、规划与决策能力、记忆与状态追踪、环境感知与交互和自我反思能力,而大模型是Agent的基础,提供语言理解和推理能力,Agent技术则扩展了大模型的能力边界,使其从静态问答系统转变为可主动执行任务的智能体;在应用体系中,Agent使大模型从"回答者"转变为"执行者",弥合了大模型与实际应用间的差距,实现了复杂任务自动化和能力系统化整合;从发展历程看,Agent技术从简单提示工程到工具增强 (ReAct),再到复杂推理和多智能体协作不断进化,其优化方向包括增强规划能力、提高工具使用效率、发展多智能体协作和强化安全性,核心发展逻辑是从"语言模型"向"通用问题求解器"转变,从人工参与向自主决策演进,代表了人工智能从"理解"到"行动"的关键演进。

徐梦炜:

    基于大模型的Agent技术的核心思想是自主完成目标任务,包括理解、推理、规划和自主行动。基本要素包括Agent/大脑(LLM本身)、记忆(短期和长期)、规划(分解任务)和工具使用(与外部系统交互),大模型提供自然语言理解、世界知识、任务规划和工具调用等能力,Agent通过框架化更好的利用基本要素,发挥出延长大模型智能时间的作用,大模型能够完成清晰地单个任务,Agent能够完成更复杂,更需要多步协同的任务。我看到的agent的发展,大概有从基于规则和简单workflow的任务自动化,到多Agent协作框架,再到对更加复杂工具的深入使用这几个趋势。

    agent未来优化方向主要是以下几个方面:大模型本身能力的提升(包括世界知识、幻觉降低、推理规划、多模态等等),构建更加丰富、易用和标准化的工具(和软件领域相关性很大),对长期知识存储能力的提升(这里既涉及到模型本身例如long context和sparsity,也涉及到工具层面如何存储和使用记忆例如RAG等)。如果从普通上层开发者角度,可能最重要也是最核心是对于大模型能力理解的不断深入,大模型能做什么、能做好什么、不能做什么,以及我们如何通过提示工程,工具创建与利用更好的激发大模型本身的能力。从学术的角度,我觉得相较于模型外围工具,模型本身能力现在是更大的瓶颈,正好现在reasoning/tts这波浪潮对资源需求量没有那么大,是一个很好的研究切入点。

吴承霖:

  • LLM 只能简单的回复,但是 Agent 能够做事。

  • 推理技术路线我们知道有 CoT,ReAct,ToT,GoT,AFlow(我们),o1,r1。我的观点是推理最后会走向神经与符号(代码)混合。

  • 开源工程我们知道有 AutoGPT,MetaGPT(我们),AutoGen,OpenHands,OpenManus(我们)。其中很多项目都和我们有千丝万缕的关系。大家思路都比较一致,也基本清楚未来的方向,但现在在工作的细分方向会有区别。

  • 我们过几天会挂一篇论文出来,叫做 FoundationAgents,这篇工作会比较完整的回答问题一,其中包括了对历史智能体工作的总结,也包括我们对智能体的正式定义,以及未来智能体的发展方向 —— 这篇我们写了几百页。

孙志岗:

    被滥用的 Agent 概念就不提了。原教旨的 Agent,特指能独立规划和执行复杂任务的 AI,中间过程会自主决策保存数据、调用工具。大模型是这种 Agent 的大脑。现在普遍能用上的 AI 应用,绝大多数都谈不上是 Agent,工作流居多。但工作流可以看作 Agent 的基础,当大模型能力进化到可以自主规划工作流了,就是 Agent 了。

观点讨论

@徐梦炜:什么样的agent才算得上是“agent”,和多大的大模型才算是“大模型”,都是未解之谜。

@李萌:有道理。工作流Workflow是按配置完成既定任务;Agent是自主决策执行的过程。

@王昊奋:Agentic AI和AI Agent是有区别的,孙老师其实说的算是Agentic AI。

@彭鑫:Agent是个老概念了。20年前我就和一个海外学者探讨过一个问题,就是Agent的核心特征是什么,智能是否是必需的。当时的结论是自主性是最重要的,智能不是最重要的。

@李萌:确实,我读本科的时候,指导我毕设的老师就是研究Agent的,并且已经研究多年了。

@王昊奋:自主性是很重要的一块,当然也演化出包括simulation和action agents等不同的形式。

@孙志岗:@王昊奋 请教王老师,具体区别是?好像见过 Agentic Workflow 的说法。

@王昊奋可以看以上3张图片。

@王昊奋:就是说 Agentic Workflow。

@彭鑫:@王昊奋 Agentic AI好像就是带确定流程的AI?其中的步骤不仅包括AI模型也包括确定性的软件模块和人机交互等?这个有点像早年包含人机交互步骤的的工作流。

@王昊奋:可以这么理解。

@吴承霖:https://arxiv.org/abs/2410.10762  AFlow: Automating Agentic Workflow Generation ,如果关注 Agentic Workflow,那么我们这篇文章比较对口,它拿了 ICLR 2025 oral。

@孙志岗:那我说的是 Agent。现在市面上比较多的是 workflow,但是也被标榜为 Agent。后来吴恩达就讲了 agentic workflow。

任晗:

    我理解比较共识的认知Agent技术的核心在于将大模型作为认知中枢,结合环境感知、任务规划、执行反馈等能力,形成具备自主决策、规划、记忆和工具调用的智能体。

    大模型是Agent的“大脑”,提供自然语言理解、知识检索、逻辑推理等基础能力;Agent则是大模型与物理世界的“连接器”,赋予其行动力和场景适配性。在移动应用体系中,Agent扮演任务协调者和用户接口的双重角色,将大模型的通用能力转化为垂直领域的解决方案。例如在鸿蒙操作系统中,小艺智能体agent通过意图框架调度应用服务,实现跨应用的复杂任务(如“根据邮件内容规划导航路线”)。 并实现用户体验的重构,从被动响应转向主动服务(如自动生成日程、修复照片)。

观点讨论

@孙志岗:是的。这个共识,是 Manus 之后才开始在大众中形成的,之前只有偏学术的能比较坚持。

李萌:

    Agent相当于数字世界的具身智能,是对整个人的模拟,人的代理agent。大模型相当于大脑,各种工具相当于工具。LLM起到理解、思考、规划、检查的作用。参考PDCA模型,P、C、A基本上都是LLM完成。

    Agent成功与否的两个关键点:单体Agent的智能性、Agent之间的组织协同性。如果组织的是一群笨蛋,是难以完成复杂任务的。同样治理水平的一群员工,不同人组织/管理,效果是不同的。这涉及到组织智能。所以Agent发展和优化的方向是:

  • 提高单体Agent的智能性;

  • 提高Agent直接的协同性。

周子杭:

    我认同前面老师说的观点,我这里补充一点信息:其实有个问题,为啥叫Agent而不叫Assistant?Assistant 和 Agent 在中文里都可能被叫“助手”或“代理”,但在 AI 圈里,这俩可是有不少差别,简单点说:

Assistant像个听话的“工具人”,你不吱声它也就歇着,就像你苹果手机的Siri。

    而Agent呢,更像个“超级特工”,能自己想办法把活儿干了。这就是Agent的核心思想 - 自主性和目标导向。它包含三个基本要素:

  • 感知能力:就像人的眼耳鼻舌,能理解用户需求和环境信息

  • 决策能力:相当于大脑,能规划任务步骤和方案

  • 执行能力:就像手脚,能调用各种工具完成具体任务

    Agent更像是'管家'和'特工'的结合体:

  • 主动规划:不用事事找你要指令

  • 工具调用:能用各种数字工具干活

  • 任务闭环:从开始到完成全程把控

  • 结果负责:保证交付完整成果

观点讨论

@彭鑫:@周子杭 但是Agent是不是也要有自知之明:什么时候该请示主人?什么事都自己做主,这种Agent(助理、秘书)可能也是主人不管用的。啥事都请示主人,那我们会嫌这个助理太笨;啥事都不请示,那我们会嫌这个助理自作主张。

@王昊奋:这个度比较难把握。

@李萌:Agent需要在某个阶段增加“情商”。目前还都是“智商”。

@周子杭:@彭鑫这个可能需要研发Agent的团队阶段性的介入去调整,我最近用GPT的DeepSearch发现,你问完问题,它会反问,和你确认一下更具体的方向。

刘焕勇:

    基于大模型的Agent技术的核心思想是将大模型作为核心处理器,赋予其感知、决策、执行和迭代的能力,使其能自主完成复杂任务。基本要素包括任务理解与拆解、记忆机制(短期/长期)、工具调用(API/插件)、环境交互(多模态输入输出)、反馈学习(人类/环境反馈)。大模型提供认知基础和泛化能力,Agent技术扩展其边界,使其从“对话”升级为“行动”。  在当前应用体系中,Agent扮演“智能执行者”角色,将大模型的潜力转化为实际生产力,例如自动化工作流、动态决策、个性化服务。其作用在于降低人工干预(自动处理长链条任务)、增强可靠性(通过工具调用规避幻觉)、提升适应性(实时学习反馈)。 发展过程经历了三个阶段,初期(2022年前后)、探索简单提示链(Chain-of-Thought),中期(2023年)引入工具调用(如ChatGPT Plugins)和记忆机制,近期(2024年)转向多Agent协作和具身智能。优化方向聚焦:任务分解精度(如递归式拆解)、工具使用效率(减少冗余调用)、抗干扰能力(应对环境噪声)。核心发展逻辑来看,通过模块化(将能力拆解为可替换组件)和闭环化(执行-反馈-优化的强循环)逼近通用人工智能(AGI)。

Question 2

主持人:近期包括Manus在内的通用智能体引发了广泛的关注和激烈的讨论,您是如何看待这一话题的?这方面技术的主要机理和创新是什么?实际应用效果如何?此外,近期发布的Responses API、MCP协议及Agents SDK等这一系列技术体系构建了什么样的Agent开发模型和模式?

王昊奋:

    通用智能体(如Manus)代表了AI从"对话系统"到"行动系统"的关键转变,其核心创新在于将大模型的认知能力与自主执行能力相结合,使AI能够独立规划、思考并执行复杂任务,在GAIA基准测试中表现优异,甚至超过了OpenAI的DeepResearch;然而实际应用效果上仍存在一定差距,虽然在头脑风暴、任务规划方面表现出色,但在完全自主执行复杂任务时仍有局限,这反映了通用智能体技术虽有突破但仍处于发展早期阶段;与此同时,近期发布的技术体系构建了更加开放、标准化的Agent开发模式,其中MCP协议作为"AI应用的Type-C接口"为AI与数据源建立了双向安全连接的桥梁,Responses API提供了更灵活的响应构建机制,而Agents SDK则支持多智能体协作,简化了AI智能体的开发和编排过程,这三项技术共同构建了一个层次化的智能体开发模型,形成了从数据连接、信息处理到任务执行的完整技术栈;总体而言,通用智能体技术虽有令人兴奋的进展,但距离完全自主的通用人工智能仍有差距,当前的发展方向是通过开放标准和协议建立更加互操作、安全和功能丰富的智能体生态系统。

彭鑫:

    感觉MCP协议打开了存量应用和私有数据向大模型和Agent主动开放的通道,当前Agent接入控制存量应用的另一种途径是GUI Agent,这种就是被动模式了。MCP是不是可以进一步将Agent与具体的数据源和遗留应用解耦,从而提高Agent应用与具体执行环境的可移植性?

徐梦炜:

    通用智能体从被动聊天机器人到能够自主执行任务的主动代理,反映出Agent在现实应用中进步速度很快。Manus或类似的智能体,通过大模型作为大脑进行规划,与预定义工具例如网页浏览器进行交互,执行代码和管理文件。Manus等Agent能够处理从创建旅行行程到分析股票和生成教育内容等多种任务,一定程度上得益于浏览器、代码执行、文件管理等更加丰富的沙箱工具的引入。这些Agent有进一步发展的前景,但它们仍处于早期阶段,面临可靠性和可拓展性两方面的挑战。Responses API、MCP协议及Agents SDK等这一系列技术体系定义了工具的标准化接口并提供了远程使用工具的能力,让Agent开发更专注于业务流程本身,以及获取大模型完成任务所需要的各种要素,例如更好的记忆管理与取回算法,更好用的工具定义。当然,标准确定之后会带来工具数量的飞速提升,结合自然语言天然的模糊性,对LLM的要求又会提升。至少在我从从事的端侧LLM/Agent场景,已有的LLM在处理百级别的function call调用场景就已经不太能用了。如果从计算机最基础的视角出发,就是一种C/S架构。

吴承霖:

    我们有三名本科生半夜两点没睡着,用 3 个小时写了 OpenManus,完成了 Manus 的大部分效果。OpenManus 代码其实是我们内部的一个小项目剥离出来的,但是代码量也很小。Manus 是三个月做出来的,或许是营销和产品 Sense 的巅峰。Manus 强依赖 Claude 3.7,Claude 3.7 推高了所有智能体水平,能够媲美 Claude 3.7 的模型还没有。MCP 足够简单,主要还是有了一个面向 LLM 的完整 flask 设计,对大部分 Agent 是利好。Agent 协议需要做的比较复杂,也需要共识,现在没有到共识时间,预计还需要过十几个月才能够有答案。

观点讨论

@彭鑫:@吴承霖 “Manus 强依赖 Claude 3.7”这个如何理解?按理说这类Agent系统应该独立于底下的大模型?当然大模型的能力对于多Agent系统的效果会有影响。

@徐梦炜:我们最近测了一下GUI agent,发现claude 3.7 thinking模型不需要任务负责的agent workflow,就在Android World上跑出了SOTA的效果,LLM时代,时刻感受到技术是一个螺旋上升的轮回啊。

@孙志岗:他们自己说用的还是 3.5。当然,只是他们自己说的。

@任晗:Manus的热度有偶然也有必然,未来的智能体一定会通过重新训练模型本身来实现。

@彭鑫:@任晗 这里隐含着Agent和大模型不见得完全正交,而是有深度耦合的地方?

任晗:

    Manus创新最让我感兴趣的是在多智能体任务分解和协同上的创意,Responses API、MCP协议及Agents SDK将智能体将从工具辅助走向自主执行。 这应该是AI Agent演进的趋势。Responses API,定义了标准化多轮对话管理。  MCP协议,定义Agent间通信规则。 Agents SDK,提供工具链,提供了一个可以参考的通用智能体具体工程实现范式。

观点讨论

@徐梦炜:其实如何从软件中提取API服务,在软工和服务计算领域是研究多年的问题。但是LLM把它的价值急剧放大了,未来肯定是个重要方向。

@彭鑫:@徐梦炜 是的。因为大模型Agent的高度智能化能力使得操控接口的多样性和灵活性要求高了许多,传统的接口开发模式已经跟不上要求了。

孙志岗:

    做为一家创业公司,做出 Manus 是非常非常值得称赞的。媒体的解读有些夸大了,但对 Agent 的发展目前看是有益的。技术机理其实不复杂,也基本没啥创新……但在产品设计上,有引领性的探索。实际使用效果不知道,因为没有邀请码……Responses API、MCP、Agents SDK 这些,都使得开发 Agent,或者把产品放入 Agent 生态变得更容易了。这也侧面反映了,Manus 并无技术壁垒,关键看它后面能否占住品牌认知,能否顶住大厂入局。

张奇:

    最近像Manus这样的通用智能体成了大热门,确实引发了很多关注和讨论。我觉得这背后反映了大家对人工智能未来的一种期待和担忧。通用智能体的目标是让AI变得更加通用化、灵活化,不再局限于某一个特定任务,而是像人类一样能应对各种复杂问题,比如同时规划、决策、执行。这种能力如果真的实现,无论是对科学研究、工业生产,还是日常生活,都会是颠覆性的改变。Responses API、MCP协议以及Agents SDK等技术体系我觉得本质上还是工程,提供一个“标准化”和“模块化”的框架。但是不解决大模型推理能力的本质要求。

李萌:

    关于Manus,可以从智能的层级角度来看。人的智能性是多方面的、分层次的。参考OpenAI之前给出的智能分层模型,大致分为5层:Level 1、对话能力;Level 2、推理能力;Level 3、自治/自主能力;Level 4 创新能力;Level 5组织能力。ChatGPT等,主要展现了对话能力;ChatGPT o系列和DeepSeek R系列,主要展现了推理能力;Manus以及之前的AutoGPT,主要展现了Level 3 自治能力。Level越高越有AGI的感觉。但实质上,目前AI等能力主要还是在Level 2上下。因此Manus看上去“承诺了太多”,实际上难以做到,因而争议很大。

    他只是在做,自动的做,看上去很智能、很忙,但是实际做的怎么样并不一定。就像一个员工看上去很忙,但可能啥都做不好,没啥工作成绩。不论是不是Manus,AI将往更高层级的智能发展,只不过还有很长的路要走。

参考:https://blog.csdn.net/2401_82452722/article/details/144243541 

【关于MCP等】

    Responses API、MCP协议及Agents SDK等这一系列技术体系实际上代表了一种新的开发方向,就是“为机器生产内容”。

    之前生产内容、制作工具,都是以人为目标用户;现在开始出现很多面向机器/AI的内容生产和工具制作。比如,Scale AI标注数据并不是给人的,而是给机器的;博查AI做的专门服务大模型的搜索引擎;MCP,也是为AI服务的。人在为AI工作。

    MCP的价值:直接价值,降低了Function Calling的开发难度,提高了通用性;间接价值,因为提高了通用性,一方面全球开发者可以协同起来,不必再重复发明轮子,另一方面大模型对工具的调用也可以统一、标准、简化了。

    显然MCP的间接价值更大。MCP类似于微软在VS Code中设计的Language Server Protocol,LSP。而 MCP 超越 LSP 的地方在于其以智能体为中心的执行模型:LSP 主要是被动的(基于用户输入响应 IDE 的请求),而 MCP 则旨在支持自主的 AI 工作流。根据上下文,AI 智能体可以决定使用哪些工具、以什么顺序使用,以及如何将它们串联起来以完成任务。

观点讨论

@王昊奋:这个观点视角很好。

@徐梦炜:很对啊,前段时间是不是有个大佬也说过类似的观点,大家应该多为AI创造内容,而不是为自然人。

@任晗:是的,在实际工程化中还有很多技术挑战要解决。

  • 多模型协同和智能路由

  • 多agent推理资源竞争和高效调度

  • 异构agent间通信

  • 多agent集体决策优化

  • 多agent协作关系拓扑自动生成和优化

  • 多agent记忆共享

  • 多agent联合学习和经验积累

@彭鑫:@李萌 为机器生产内容很有意义,不管是大模型训练推理还是Agent的任务规划推进,目前都还是以自然语言为主的方式。面向未来的需要,我们要考虑如何为AI提供更加原生化的数据、知识和其他养分了。

周子杭:

如何看待manus爆火

  • 产品创新也是很好的创新,产品创新包括用户洞察、UI界面,交互逻辑,最终交付都是是创新大家会产品创新的包容小于技术创新;

  • 很有勇气的产品,敢于亮剑;

  • 海外版已经商业化,开始收费,可以观察后续进展;

  • 其实也侧面说明咱们中国AI技术可能真的走在前列了,所以大家才觉得这没什么;

刘焕勇:

    Manus等项目的投机性大于创新性,是在产品上做的包装,实际应用仍局限于封闭场景的脚本化任务,离真正的自主智能差距甚远,Responses API标准化了人机交互协议,MCP协议提供了跨智能体的通信基础,Agents SDK则降低了开发门槛,这些确实推动了智能体生态的初步形成,都是好事儿。

Question 3

主持人:当前,大模型和Agent技术已经开始在手机和PC等终端设备上应用,实现AI助手和AI PC等新的产品形态。在智能手机和智能汽车等领域,“去APP化”已经成为一种流行的口号。那么,您如何看待大模型驱动的智能应用创新的现状以及所面临的机会?同时,这一创新发展的趋势背后将带来什么样的生态变革?例如,已有的APP如何接入并支持Agent应用?APP厂商的角色定位以及生存模式将发生什么样的变化?如何构建多方参与共赢的良性生态格局?

王昊奋:

    当前,大模型驱动的智能应用创新正处于快速发展阶段,已形成从Apple Intelligence、Copilot PC到各类手机AI助手的产品矩阵,同时面临着设备算力提升、模型轻量化、隐私计算等多重机遇与挑战;"去APP化"趋势本质上是交互范式从"人找服务"向"服务找人"的转变,代表着计算效率和用户体验的再次飞跃;这一转变将引发深刻的生态变革,传统APP将从独立入口转变为服务提供者,未来的应用生态可能形成"平台层-中间件层-服务层"的三层架构,其中平台层负责提供基础设施和AI能力,中间件层负责服务编排和开发框架,服务层则聚焦于专业能力提供;对于现有APP厂商,适应这一变革的关键是将核心能力模块化、API化,通过标准化接口接入AI生态,从争夺用户注意力转向提供专业化服务;APP厂商的角色将从"入口提供者"转变为"能力提供者",商业模式也将从"用户付费"或"广告收入"转向"按调用付费"或"能力许可";构建多方共赢的生态格局需要平台方建立开放公平的接入标准和利益分配机制,服务提供商专注差异化能力建设,同时建立统一的评价体系和质量保障机制,实现从竞争性生态向协作性生态的转变,最终形成"平台共建、能力互补、价值共享"的良性循环。

观点讨论

@彭鑫:@王昊奋 APP厂商的商业模式将从"用户付费"或"广告收入"转向"按调用付费"或"能力许可:这个是一个巨变,现在APP厂商的盈利模式可能还是跟可视化界面密切相关,不管是广告还是推荐。

    多方共赢是必要条件。如果APP厂商无法存活,无法提供各种专业化能力,那么Agent也就失去了能力的来源而退化为一个只会耍嘴皮子的“理论家”。

徐梦炜:

    我个人就是从事mobile agent方向的研究,所以充分相信这个方向是终端设备发展的未来,虽然距离大规模落地还有一些时间。“去APP化”不是指APP的消失,而是用户将更多通过自然语言入口访问功能,而非手动打开各类APP。用户不再关心“我要打开哪个APP”,而是关注“我想完成一个什么任务”。在这种新范式中,APP角色将从“用户直接入口”转向“被Agent调度的功能服务模块”,与此同时,APP厂商也需要将APP核心能力标准化暴露给Agent系统,以适配Agent调用。相应地,新的生存模式将从“争取用户在APP内部界面的停留时间”转向“争取APP功能调用频率”。未来可能形成Agent功能商店或者服务调度平台,APP厂商将会成为其中的能力节点。要支撑这种生态演化,需要由平台方建立统一的Agent-APP通信协议和功能注册接口,模型厂商和APP厂商需共同参与标准制定与数据安全建设。

    从用户角度来说,AI助手和AI PC可以简化复杂烦琐的应用内操作流程,帮助用户更好使用软件。同时对应用提供商来说,也是其吸引用户,构建完善应用生态重要一环。但由于软件的多样性和复杂性,最大的困难是如何让AI助手理解软件,并准确为用户提供帮助,无论是以回答用户问题,还是以接手用户操作的方式。

    将已有App接入Agent应用,就是让Agent学会App知识,学会如何操作App。现有App可以最常见接入Agent的方法就是暴露功能性API,与传统语音助手(Siri,Google Assistant) 工作逻辑相似;近日热门的MCP协议也是一种将应用接入到语言模型的方式;对于语言模型驱动的Agent,App可以将其内部知识以LoRA的形式接入到模型,提高模型准确率。无论是哪种方式,都需要APP厂商积极拥抱Agent环境,实现双赢。

    未来APP和device厂商的关系会发生转变,这里涉及到技术以外的复杂因素。很直接的一点,app希望始终掌握流量入口(就像现在这样),而device希望通过全局agent的能力接管app,成为流量分发的中枢节点,两者利益有显著的矛盾。我个人倾向于未来的格局应该是由每个app各自构建一个agent(即app-level agent),由他们负责和app逻辑和能力紧耦合的任务,而全局device agent主要负责一些比较general的任务(例如询问明天天气)、向app-level agents分发请求以及多个app-level agent协作调度的任务。原因是,app更懂自己的场景和逻辑,可以比较定制化地提升agent能力和可靠性;同时也能较好地维持当前的应用生态。

张奇:

    我觉得APP和Agent不太矛盾,Agent可以理解为“自动化”操作App,所以APP本身还是照常按照原来的发展就好。未来有可能出现更方便的互操作的协议。现在还是要靠屏幕的图像解析技术。

吴承霖:

    两种情况,一种是被动以 UI Control(也称为 Computer Use etc.) 使用,另一种是主动变为智能体应用。

    UI Control 其实 DeepMind 有一篇论文,说明了 Scaling Law,并且认为接近 2 亿条数据可以把 android 的操作正确率推到 100%(~800 个应用)。一个可能性是入口(设备厂,如苹果安卓)会主动做完这个,意味着工具型应用的市场空间会极大收缩,但是娱乐型应用的市场持续存在。

    主动变为智能体应用的不一定多。很难评价变为智能体应用的收益,一个可能性是入口(同上)会主动迎接智能体应用,这会带来一个 Hype,但是很难说有什么实际收益。

    智能体协议会是一个关键,但是这个协议很难做。市面上的协议都没法解决这些问题。

任晗:

    从用户感知来看,在移动终端上Agent的体验一直在演进,从早期Siri单任务对话助手→ 现在多模态交互,如鸿蒙小艺支持图片转表格→ 下一步将走向多任务多设备自主决策,如从车载导航向手机步行导航的自动流转等等。

    我理解去APP化实际上从“以应用为中心”转向“以用户意图为中心”,实现生态重构路径:

    服务原子化:传统APP解耦为可组合的微服务(如WPS文档编辑功能独立封装)。

    动态编排:用户需求触发多服务协同(如“出差规划”自动调用日程、酒店预订、导航)

    通过多维系统感知理解用户显性与潜在需求,动态匹配服务资源,实现对硬件能力和外部工具的调用。是体验和技术结合的关键。 

观点讨论

@李萌:“以用户意图为中心”,这个观点好!原来是人适应应用,现在是应用适应人。

@彭鑫:@任晗 从车载导航向手机步行导航的自动流转等:这个进一步涉及多设备协作了。由此引发一个问题:个人化的Agent是否应该也支持多设备能力协同?Agent运行的位置可能不是最重要的(若干个人设备甚至个人信任的云端空间都可以),更重要的是多个个人设备和环境设备如何也称为Agent可调用的能力的一部分?当然这涉及更复杂的授权管理了,特别是环境设备。就像我们去一个别人家或单位做客,对方会有限开放一些设施设备给客人但不会都开放。

@任晗 :是的,以用户意图为中心,要实现数据隔离与权限管控,防止用户隐私泄露就很关键。

孙志岗:

    App 厂商确实很危险,很容易变成 Agent 的 MCP Server,控制权、分发权都给了 Agent。据说美团现在就很紧张,因为如果硬件级的入口变成了一个超级 Agent(很有可能),那么外卖这些平台的价值就被削弱了,每个商家可以自己搞个 Agent(成本很低)直接对接超级 Agent。

    我比较相信 AGI 的世界,巨型软件会变得非常少,原子型的软件到处都是数以亿计。Agent 随时动态串联原子型的软件,来完成现在巨型软件所做的事。

观点讨论

@彭鑫:@孙志岗 嗯,解构再重构

周子杭:

    现在的AI进化方向很明确:App是“中间商”,Agent是“新入口”。以前我们用App,是在“找功能”;现在,有了大模型,用户只想“说需求”,剩下的交给AI搞定。

你一开口,AI直接帮你调动打车、订票、付款,连App长啥样你都不用知道。这不是去App化,这是杀App取而代之。

    目前最大的问题是,大模型“聪明但不稳定”。说得直白点,它像个刚上岗的实习生:能干活,但偶尔离谱。但别小看这个实习生,它成长的速度是指数级的——一两年内,99%的App功能可能都得被它“吞了”。

    对于开发者和厂商来说,不接入Agent生态,就等着被边缘化。未来谁还会点进你那个App界面?大家只会问AI:“我想去东京看樱花,帮我安排一下。”App要做的,是变成一个“能力节点”,让AI能随时调你、用你、组合你,而不是做那个“自说自话”的孤岛。

    说到底,未来不是拼App做得多精,而是谁能让AI把你的服务安排得最丝滑。理解用户意图+调度多服务+无感完成任务,这才是生态竞争的新高地。

    一句话总结:AI Agent是终极“入口商”,App将沦为背后的“供货商”,不转型,就会被遗忘。

观点讨论

@李萌:后面,“中间商”得找到自己的价值,否则就容易被消灭了。

@周子杭 :是的。

@彭鑫 :@周子杭 大家只会问AI:“我想去东京看樱花,帮我安排一下。”我感觉会有两类用户:一类全部交给代理(智能体),只管付钱;另一类还是希望自己掌握和搭理。当前的游客就是这样,也不是谁都愿意跟团或完全交给旅行社来安排,而是愿意自己来安排和掌控。

@周子杭 :嗯,自己掌握可能会成为小众的特定需求,大众的话,感觉还是更愿意不动脑子。

@李萌 :一句话总结:AI Agent是终极“入口商”,App将沦为背后的“供货商”,不转型,就会被遗忘。

    这里其实有个Agent粒度的问题,Agent可以是一个巨大的、全能的Agent,类似于Apple Intelligence;也可能是完成某项具体任务的小agent。Agent之间会存在协作关系。就比如,你安排你的助理agent去找售票员(专业agent)买火车票一样,他们代表不同的群体,具备不同的专业能力。

李萌:

    我觉得是否去App化,得看“场景”。App的本质是满足特定场景下需求的一个软件载体。如果这个App解决的场景问题,能够更被更大场景的工具覆盖,那么这个App很可能被取代。

    这背后有一条规律:“通用”对“专用”的替代、降维打击。专用电商基本上会被通用电商取代,专用工具基本上会被通用工具取代。

    因此哪个App将被取代,实际上要看App占据的场景范围,小场景的App容易被大场景App消灭掉。过去这几年基于大模型做特定场景应用的App,很多已经消失了,因为其能力被融入进了ChatGPT、DeepSeek等大场景应用中了。

    App厂商应该往提升“场景化”程度上走,解决各个产业深度场景的问题,在这些领域大模型的“通才”还干不过“专才”。

刘焕勇:

    大模型+Agent正在用“对话即服务”取代传统APP,用户说需求,AI调接口完成任务。机会在刚需场景(如打车、订餐)的深度Agent化。生态将重构,APP变成API供Agent调用,厂商要么做功能模块供应商,要么被整合。赢家通吃(控制入口+Agent平台),但垂直领域仍有小而美的机会。关键胜负手:谁掌握用户信任和分成规则。

观点讨论

@彭鑫:@刘焕勇 机会在刚需场景(如打车、订餐)的深度Agent化:这里体现了专业Agent的作用。专业的人做专业的事,这句话也适用于Agent。

@李萌:专业Agent最后会进化成360行的状元。

@孙志岗:所以 Agent 会有数亿个,专业垂直到极致。

Question 4

主持人:如何看待Dify这样的工具在大模型驱动的智能应用创新中所发挥的作用?与传统软件应用相比,大模型驱动的智能应用在开发、测试、运维等方面面临什么样的新问题和新挑战?特别是大模型驱动的智能应用所带来的安全、隐私和可靠性等方面的问题应当如何解决?

王昊奋:

    Dify通过提供开源的LLM应用开发平台,极大地降低了构建复杂AI应用的门槛,使开发者能够快速从原型转向生产环境;作为大模型应用开发的"中间件",Dify提供了完整的技术栈,包括LLM编排、可视化工作流构建、RAG管道、Agent能力以及模型管理等核心功能,实现了从后端服务到前端应用的全链路支持,特别是在Agent领域,支持基于各种LLM构建自主智能体,并提供丰富的内置工具与自定义工具扩展能力;与传统软件相比,大模型驱动的智能应用面临全新的开发挑战:非确定性输出带来的测试困难,传统的精确匹配测试方法不再适用;安全风险复杂化,包括提示注入、数据泄露、模型窃取等新型威胁;隐私保护挑战,应用可能无意中暴露敏感信息或产生不合规输出;以及可靠性问题,包括幻觉内容生成、上下文理解偏差以及过度自主的风险;针对这些挑战,解决方案应当包括建立多层防御架构,通过输入过滤、输出检查和行为监控形成完整安全屏障;实施数据治理策略,确保训练与推理过程中的数据合规与最小化;建立持续评估与改进机制,通过人类反馈不断优化模型行为;设计适当的人机协作界面,在关键决策点保留人类监督;以及建立端到端的可观测性系统,实时监控应用性能与行为异常,通过这种综合方法,可以在保障创新速度的同时,确保大模型应用的安全、隐私与可靠性,为用户提供值得信赖的智能体验。

张奇:

    像Dify这样的工具,在大模型驱动的智能应用创新中可以说是非常关键的。它的作用主要是降低开发者使用大模型的门槛,提供一个灵活、高效的平台,让开发者可以快速构建智能应用,而不用从零开始去集成复杂的大模型组件。

    大模型驱动的智能应用和传统软件相比,在开发、测试和运维方面确实面临不少新挑战。首先是开发过程中的不确定性问题。大模型的输出往往不是固定的,可能会因输入的细微变化而产生不同结果,这对应用的功能设计和用户体验提出了更高的要求。其次是测试的复杂性。传统软件可以通过固定的逻辑和路径进行测试,但大模型的非确定性输出让测试覆盖变得更加困难,尤其是在需要高精度或高可靠性的场景中。

吴承霖:

LLMOps 还是有不少企业级需求。有很多不同的公司在做,比如 Glean 增长很快。多智能体之后会成为主要趋势。

  • 职业共生:企业大概率还是会有很多不同的职业智能体,尤其是考虑到 SOP 数据大家都没有。

  • 数据共生:之后的智能体会与数据共生,数据在哪里,智能体就在哪里。数据源的异构会是比较头疼的问题,可能还是要手工做 connector。多智能体的交流会是一个问题,可能没法摆脱智能体协议

  • 安全、隐私:私有化硬件是大概率的未来,但这取决于硬件和 LLM 的成本下降的多快。一年十倍的话可能很快就会看到泛滥的私有化硬件。但这也意味着智能体协议很难做,因为这些独立存活的智能体架构各异。

观点讨论

@彭鑫:@吴承霖 私有化硬件是大概率的未来:目前相当的大多数场景好像以手机(移动个人化场景)和PC(个人办公)为基础好像就够了。同时手机基本上是跟着人走的。这里私有化硬件的需求主要来自于哪方面?

@吴承霖:我的观点是最后会有私有化算力,模型都是独立部署的,每家一个,每人一个,数据隐私在哪私有化算力就在哪。在 fedml 没有广泛突破之前,大概率私有化算力会占据主导。

@彭鑫:@吴承霖 用户是否可以信任手机厂商为我们提供一个个人专属且伴随通行的个人代理平台?或者手机就会演化成这样一种 私有化硬件?当基于大模型Agent的智能化个人代理成熟后,目前这种手机形态是不是也不需要了?

@吴承霖:很难说是不是手机厂来做这个。数据隐私的颗粒度很灵活,有可能是多人,比如家庭和公司部门。进一步的,成本下降的没有那么快,中间形态一定不是拿在手上的,而是一个固定硬件(因为还没有手机那么小),这个固定硬件可以接入你的所有数据,包括微信的所有记录,所以你得完全信任它。

孙志岗:

    Dify 和扣子对 AI 启蒙有巨大意义。但它们都是阶段性的产物,价值随着 workflow 价值的降低而降低。但不会完全失去价值。强定制的 workflow 因为稳定性高,会一直有价值。

    大模型应用最难搞的是 bad case 的随机出现。其它问题,现在都还没到引发大问题的时候。

刘焕勇:

    Dify等工具降低了大模型应用开发门槛,让企业能快速组装AI工作流,但可能加剧同质化竞争。大模型应用的开发新挑战:

  • 需求模糊(用户说不清要什么);

  • 测试困难(输出非确定性);

  • 运维复杂(提示词漂移、API变动)。

安全隐私问题解法:

  • 敏感数据本地处理(端侧模型);

  • 输出过滤(实时内容审核);

  • 可解释性增强(追溯AI决策链)。

  • 可靠性靠冗余校验(多个模型交叉验证)和人工兜底(关键环节介入)。

任晗:

    这些新工具的出现降低了非技术用户开发门槛,但也带来了更多技术问题,例如;

    安全:模型幻觉导致错误决策→需实时人工审核链路。

    隐私:用户数据被Agent记忆→采用差分隐私或本地化存储。

    运维:模型迭代导致API兼容性问题→需要版本隔离+自动化测试等等。

周子杭:

    Dify这种工具把“炼丹”变成了“拼乐高”。它让普通人也能搭出像样的智能体,不用懂底层模型原理,拖拖拽拽就能上线一个能干活的AI。这不仅提高效率,更重要的是,它改写了AI开发的范式——从“写代码”变成“定义行为”,从“程序员做产品”变成“产品经理直接上手”。

但说到底,大模型应用还是个新物种,和传统软件比,有几个坑:

    第一,开发不稳定,写Prompt像猜谜,改个词结果就变天;

    第二,运维麻烦,模型出bug不是“报错”,是“瞎说”,必须全天监控+兜底机制。

李萌:

    Dify工具挺好用,我们用他们搭建了很多Demo,向客户展示AI的场景化应用。

    Dify从对话类应用、Agent类应用开始做,但最后一定会扩展到通用软件应用的搭建上,最终跟我们在做的低代码软件开发平台类似。这点新发布的Dify 1.0已经能够看到这种趋势了。

    为什么?因为小的agent在很多时候解决的还是一个单点的问题。解决单点问题的能力,

  • 要么被整合到更加完整的软件应用中,比如我们构建了一个帮助大学生修改简历的agent,然后放到了大学生就业辅助系统中;

  • 要么被整合到更大的、更通用的agent中,类似于变成一个MCP Servers。

Question 5

主持人:随着大模型和Agent技术的发展,“AI原生”的概念逐渐深入人心。那么“AI原生”的含义和特征是什么?这一概念如何改变未来的软件应用和服务形态?作为支撑“AI原生”的基础设施被提出的“AI OS”的含义是什么?与传统的OS的关系和区别是什么?大模型驱动的Agent进化与智能应用创新未来的发展方向会是什么样的?

王昊奋:

    "AI原生"是一种将人工智能作为核心驱动力而非附加功能的设计理念和构建范式,其本质特征包括自适应性、连续学习能力、意图理解而非指令执行、主动性而非被动响应以及情境感知与推理能力;这一概念正在从根本上改变软件形态,使应用从静态功能集合转变为动态服务流,从界面驱动转向意图驱动,从工具集合转向服务协调者,催生了全新的应用架构——前端简化为意图表达界面,中间层由意图理解和服务编排组成,后端则由分布式的能力提供者构成;作为支撑"AI原生"的基础设施,"AI OS"本质上是介于硬件资源和智能应用之间的新型操作系统层,它与传统OS的关键区别在于:资源管理从物理资源扩展到AI资源(如模型推理能力、知识库),调度逻辑从进程/线程转向任务意图和上下文,接口形式从API转向自然语言和语义理解,安全模型从访问控制扩展到内容安全与边界管理;传统OS管理计算设备,而AI OS管理智能服务,两者是互补而非替代关系;未来发展方向将呈现出多元协同趋势:从单体智能体向多智能体协作生态演进,从通用助手向垂直领域专家分化,从云端集中计算向云边端协同架构发展,从封闭生态向开放标准与协议靠拢,最终形成"分布式能力、集中式协调、个性化体验"的智能计算范式,实现计算能力真正以人为中心的组织方式。

观点讨论

@彭鑫:"云原生"火起来没几年,我们很快就要接受"AI原生"的概念和由此带来的技术发展浪潮了。

@李萌:是的,特别是现在,技术发展速度越来越快了。

@王昊奋:其实是类比的词和期望。各种原生最后达成需要一定的阶段,也依赖于技术的发展和成熟度,同时各种原生会叠加,加速整个演进的过程。AI一天,人间一年。

徐梦炜 :

    就和云原生类似,AI原生是一个偏理念性质或者方法论的概念,而非具体技术。我理解中的AI原生可能有2个层面:第一,AI原生软件更容易地被AI使用(例如作为工具调用,作为编程环境等);第二,AI原生软件更高效地对AI进行支持(例如推理时延更低、功耗更低等)。这一切面向一个愿景,即未来的软件将会由AI主导,成为依附于AI的存在(但并不意味着软件不重要)。同时,AI会成为系统资源的主要使用者,大部分内存、算力、电量会被AI这一特定workloads所占用,因此对其进行紧耦合的优化是必要的。相对而言,AI OS应该是一个更具体、更有指向性的概念,但其具体技术内涵并不明确。据我观察,大部分人提AI OS,可能只是一个类似device-wise agent的概念,让大模型成为一个OS内置的大脑、有权限调用各类系统资源并接管用户交互。当然这些需要OS层面的改动,但其实并不涉及OS最核心的部分即kernel,所以我个人觉得这种路径也不是很有颠覆性。当然,未来的AI OS需要一个新的kernel吗?我也不是很确定。不过从一个极端的角度看,如果未来LLM能力强到可以直接写kernel模块了,确实很多任务可以在线生成,到时候可能会真的颠覆kernel的设计。

观点讨论

@彭鑫:@徐梦炜 有两点补充及不同意见

1)“AI原生”可能不仅是指Agent下面那些提供能力的软件,也包括大模型Agent本身在内,Agent本身也是一种软件

2)“未来的软件将会由AI主导,成为依附于AI的存在”:这个我有点不同意 [笑脸] 目前看到的大模型Agent在上头掌控入口是作为一种个人服务入口的存在(就像打理一切的个人助手),但我们还有很多支撑经济社会运转的巨型复杂系统。这些系统自身还是软件主导,AI模型作为一种模块嵌入其中的。

@徐梦炜:1)同意;2)同意,我说的可能还停留在前面讨论的个人代理类toC应用,有些极端了。

张奇:

    我觉得“AI原生”这个概念,其实就是指那些从一开始就以AI为核心设计的应用和服务,而不是传统软件加上AI功能的“补丁版”。它的特征是高度的智能化,产品能够自主理解用户需求,动态调整功能。“AI原生”应用通常具备强大的自适应能力,能够通过持续学习不断优化服务。

吴承霖:

    我有一句话经常讲:“屏幕可能会消失,但逻辑永存。” 这是因为人类需要逻辑来驱动社会运行

    逻辑分为两种,一种基于神经(人脑、LLM),一种基于符号。Coding Agents 包括这两种。之后数字世界或许就是剩下一堆 API,和一堆可以使用 API 的代码智能体,以及可以灵活组装的前端。我在 2023 年的时候画过智能体堆栈,在少量的演讲中有谈到,有三层,包括 AgentOS,AgentIDE(Coding Agents,如 mgx.dev),AgentStore。有兴趣的可以来 https://mgx.dev/ 看看,我们其实已经实现了这三层,或许是 AI 原生的一个例子。

任晗:

    我的理解,传统OS更多面向管理CPU/内存等硬件资源管理,为应用提供运行框架等而设计。而AI OS将以Agent为核心调度算力、数据和服务。服务按需组合、交互自然化(语音/手势主导)、系统自进化(通过用户反馈优化模型),业务形态也将从功能转向动态服务自组织。

    “AI原生”意味着交互重构,从“点击按钮”到“对话驱动”(如“帮我P图”替代Photoshop操作)和动态服务,应用功能随用户习惯进化(如学习偏好自动调整推荐策略)。  

孙志岗:

    在产业界,少有人关注这些概念的定义,爱咋叫就咋叫。做事的人,关注的都是怎样解决一个个具体的、有价值的问题。所以,无所谓原不原生,有用户愿付钱,那就是好的。无所谓是什么 OS,能满足需求、降低用户门槛、降低生态成本,就是好的。

    未来,当超级 Agent 入口成为主流,终端 OS 确实可能发生变化,比现在的 OS 要更简单。但这种简单是否会带来新的 OS,我持保留意见。

观点讨论

@彭鑫:@孙志岗 我觉得产业界,至少大会对外宣讲的时候,还是很强调这些概念的。例如车圈现在很多企业讲起智能汽车都会提AIOS、AI原生并强调去APP化。

@孙志岗:@彭鑫 汽车行业不太了解。可能他们本来就是从头建车机生态,所以确实可以从这个视角出发来全新思考吧

@彭鑫:以Linux为代表的传统OS不会消失。AIOS应该会把大模型和Agent的一些运行支撑和基础能力沉淀到基础层,这部分从传统OS看来可能是一个新的中间件层。

@吴承霖:我们几家说的 AgentOS 都没有要吃掉 kernel 的意思,其实还是一个工具层。

@任晗:是的,是基于内核之上的一个新的能力层。

@徐梦炜:作为一个OS研究者,经常会思考是否LLM需要新的kernel。现在看起来共识还是没有强需求。不过未来,如果99%的硬件资源(算力、存储、功耗)都是被LLM所使用,可能对kernel会有新的机遇。

@彭鑫:@徐梦炜 要看什么设备。手机这种个人化设备有可能,因为能力基本都可以靠云端服务来实现了,终端主要就是意图理解和任务规划这种了。但如前所述,可能传统的GUI这类还要继续存在,因为还有游戏这类可视化和交互式需求存在。

李萌:

    关于AI原生,前面提到,小场景软件可能会被大场景软件替代,操作系统OS就是更大场景的软件系统。所以很多能力会被整合到操作系统中。这是一种OS的AI化。“AI的OS化”和“OS的AI化”,是两个路径问题。未来OS的定义可能跟今天都不完全相同。

    另外,有一个点,对于我们个人来讲,比“AI原生”更重要的一点应该是“AI First”(AI优先)。之前我们做事情都是自己想怎么做,然后找工具来做,比如之前图像识别、语音识别的AI工具。但现在遇到一个问题,应该首先想“这件事是不是AI可以做的?”甚至连想都应该考虑让AI来帮着想,“这个问题,AI你怎么看?”AI成为智能时代的“元芳,你怎么看。

周子杭:

    “AI原生”不是给传统软件贴AI标签,而是从底层重新定义软件该怎么长。简单说:以前AI是插件,现在它是“主脑”,AI原生应用没了模型就等于瘫痪。核心特征就三点:AI是主力、系统能成长、用户像在对话而不是操作界面。

    这将彻底改变软件世界的三件事:

  1. 产品形态变了:未来的App可能连界面都没了,一句“我想去东京看樱花”,它能帮你搞定全流程。

  2. 商业模式变了:软件不再靠卖“功能包”,而是按效果、按调用量收钱,从一次买断变成长期“订阅大脑”。

  3. 成本结构变了:团队能小三分之一,开发效率快三倍,但运营成本大头在算力、数据、调度。

    而支撑这些变化的底层,其实就是“AIOS”——别误会,它不是要干掉Windows或iOS,而是站在传统OS之上,变成管理智能体和服务流转的操作系统。它负责决策、感知、规划,让你的设备有了“思考力”,不是只会点点点的执行器。

    最终,Agent会变成你生活和工作的“AI拍档”:越来越能干,越来越懂你,不止能做事,还能帮你规划、提醒、甚至给建议。应用也会从“我找工具”变成“工具来找我”,甚至“我没说话,它已经开始做了”。

    一句话总结这波趋势:未来不再是“装了AI的App”,而是“AI自己变成App”——软件行业正在被AI从根上重写一遍。

观点讨论

@彭鑫:@周子杭  开发效率快三倍:个人化应用这一头别说三倍,一万倍都有可能,因为都可以自然语言生成或者直接规划执行了。对于企业级软件开发,AI带来的量级上的效率提升还没太看到。

@周子杭:所以很快会同质化,不管是内容还是产品,以后知识库可能是个差异点,就是个人或者企业自己对某方面的know how。

@彭鑫:@周子杭 这个我不这么认为。如果有人认为AI会让复杂企业软件开发(我说的是那种大个头复杂软件,不是小应用),我会觉得他们缺少对系统复杂性的敬畏。

@吴承霖:现在没有什么真正的 hype,因为生产力的变革已经到来了,只是它表示的还没有那么好。Coding Agents 在很多任务上 exactly 就是 10x-1000x 的效率,我理解可能 12 个月到 36 个月之内它们会解决大部分的软件问题,可能是 99%

彭鑫:

    这波AI发展浪潮产业界还是跟进很快而且非常喜欢用新概念的。我至少在两个行业(汽车、金融)中听到这样的声音,那就是“不谈AI就有罪” 。窃以为,这背后是不是稍微有一点过热?

观点讨论

@李萌:可能是因为这两个行业都变成了以数据为基础了。汽车原来是工业设计、制造为主,现在核心是智驾和智能交互,所以汽车的内在属性变了。

@孙志岗:我觉得过热没有。甚至是还不够热。多高估 AI 的未来都不过分。

刘焕勇:

    "AI原生"意味着整个系统从底层就以大模型为中枢神经,其本质特征是具备自主理解、动态决策和持续进化的能力,会冲击传统软件"功能固化、流程预设"的范式,会变成"无形化"的服务形态,交互界面逐渐消失,功能模块原子化重组,服务流程由AI实时编排,形成一种"环境即服务"的新范式。在此背景下提出的AI OS,与传统OS的根本差异在于管理对象从硬件资源升级为认知资源,核心要解决的是Agent的算力调度、协作仲裁和安全隔离问题。未来的演进上,Agent将发展为能像人类一样熟练操作数字和物理世界的超级个体;在规模维度上,将形成具有群体智能的Agent集群;在渗透维度上,AI将突破数字边界,通过机器人、AR或者VR等载体深度介入现实世界,这都是很有趣的点。

观点讨论

@彭鑫:AI原生根据深度和广度也可以分级?

@孙芦晓:具有群体智能的的agent群 专业领域的agent群 最终无差别使用 个体应用创新。

访谈结束

排版 | 牛嘉阳

审核 |  彭鑫  

CodeWisdom

一个有知识的软工公众号

发现智能化编程之道

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值