CodeWisdom
具身智能系统:从逻辑程序到神经网络
微访谈· 第三十六期
背景介绍
具身智能(Embodied Artificial Intelligence,EAI)在物理实体的基础上,通过智能体与环境的交互来获取信息、理解问题、做出决策并执行行动,从而展现出智能行为和适应性。随着大语言模型以及多模态大模型的发展,具身智能和机器人技术也迈入了快速发展期并正在成为新的热点领域。然而,具身智能要从小范围试验发展到大规模应用还需要构建完整的任务系统并考虑相关的可靠性、安全性等方面的问题。在这其中逻辑程序和神经网络各自扮演着什么样的角色?具身智能和机器人系统是否像自动驾驶一样会朝着端到端模型的方向发展?系统的可靠性和安全性又如何保障?围绕这些问题,我们邀请了来自人工智能、软件工程、工业软件等多个领域的专家学者共同探讨和交流,帮助我们更好地认识当前的发展现状以及未来的发展方向。
主 持 人
彭鑫
复旦大学
复旦大学计算机科学技术学院副院长、教授,教育部长江学者。中国计算机学会杰出会员、软件工程专委会副主任,《Journal of Software: Evolution and Process》联合主编(Co-Editor),《ACM Transactions on Software Engineering and Methodology》、《Empirical Software Engineering》、《Automated Software Engineering》、《软件学报》等期刊编委。2016年获得NASAC青年软件创新奖,2023年入选上海市东方英才拔尖项目。主要研究方向包括软件智能化开发、云原生与智能化运维、泛在计算软件系统、智能网联汽车基础软件等。研究工作多次获得IEEE Transactions on Software Engineering年度最佳论文奖、ICSM最佳论文奖、ACM SIGSOFT杰出论文奖、IEEE TCSE杰出论文奖等奖项。担任2022年与2023年CCF中国软件大会(ChinaSoft)组织委员会主席与程序委员会共同主席,以及ICSE、FSE、ASE、ISSTA、ICSME、SANER等会议程序委员会委员。
访
谈
嘉
宾
邱锡鹏
复旦大学
复旦大学计算机学院教授,担任中国中文信息学会大模型专委会副主任、中国人工智能学会自然语言理解专委会副主任,入选中国高被引学者和全球前2%顶尖科学家榜单、教育部“高校计算机专业优秀教师奖励计划”等,获钱伟长中文信息处理科学技术奖一等奖(第一完成人)、CCF-ACM青年科技奖等奖励,主持国家优青、科技创新2030重大项目课题、上海市基础特区等项目。主持研发了多个高影响力大模型MOSS、SpeechGPT、AnyGPT、InternLM。著作《神经网络与深度学习》被上百家高校作为教材。
王昊奋
同济大学
同济大学百人计划特聘研究员,博士生导师。他是全球最大的中文开放知识图谱联盟OpenKG轮值主席。他负责主持多项国家AI专项,发表100余篇AI领域高水平论文。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过10亿人次。目前,他担任中国计算机学会术语工委副主任,自然语言处理专委秘书长,信息系统专委常委,智能机器人专委会执委;中国中文信息学会理事,大模型专委会指导委员会委员,语言与知识计算专委会副秘书长;中国指挥控制学会大模型专委会常务委员;上海市计算机学会自然语言处理专委会副主任等社会职位。
董威
国防科技大学
国防科技大学计算机学院教授、博士生导师,现任中国计算机学会形式化方法专委会副主任,先后主持了国家自然科学基金、国家863项目、国防973课题、国防预研和预研基金重点项目等十余项课题,入选教育部新世纪优秀人才支持计划,先后获霍英东基金会高校青年教师奖、中国计算机学会首届NASAC青年软件创新奖等。在国际高水平会议和期刊上发表学术论文80余篇,出版国家级规划教材两部,相关成果成功应用于装备控制、基础软件等关键领域。
黄凯
中山大学
中山大学计算机学院教授 、人工智能与无人系统研究所所长,机器智能与先进计算教育部重点实验室副主任,政协第十三届广东省委员会委员。研究领域为嵌入式/CPS系统的基础理论及其工业应用。基础研究包括实时操作系统、低功耗体系结构、类脑计算、形式化验证。应用领域涉及无人驾驶、医疗器械、仿生机器人。在science robotics,nature intelligence,pami,ijrr,icra等期刊和会议发表多篇论文,主导多项机器人相关知识产权转化。曾获十余篇最佳论文及提名,多项省部级技术进步奖。
戴文斌
上海交通大学
上海交通大学电子信息与电气工程学院教授、院长助理,国家优秀青年基金获得者,上海市自动化学会秘书长。近年来主要从事下一代工业控制软件、工业信息化、工业互联网边缘计算等方向的研究工作,联合宝信、华为等完成全球首个广域云化PLC实验,研发了国内首个基于开放自动化标准的工业控制软件IDE与Runtime。以第一作者及通讯作者身份在IEEE 汇刊以及国际重要学术会议上发表论文60余篇,出版中文专著2部、合作出版英文专著1部。主持国家自然基金3项、科技部重点研发计划青年科学家项目1项,获得唐仲英青年学者、上海市青年拔尖人才等称号。同时,他是IEC TC65B/WG15分布式工业控制软件标准委员会国内唯一专家,担任IEEE边缘计算标准工作组主席并主持6项边缘计算IEEE国际标准的制定。目前担任IEEE T-II编委,Fundamental Research青年编委,曾任IEEE-IES TC-II主席以及IEEE ICIT 2022、ISIE 2023、INDIN 2025、IECON 2027等多个IEEE-IES旗舰会议的大会主席、程序委员会主席、宣传主席等。
赵斌
上海市人工智能实验室
西北工业大学副教授,上海人工智能实验室青年科学家,从事大模型与具身智能研究,在国际期刊和会议发表学术论文 50 余篇,包括TPAMI/CVPR/ICCV/NeurIPS/RSS/CoRL等,国家发明专利 10 余项,PCT 国际专利 1 项。获中国科协青年人才托举工程支持,国家自然科学基金面上项目,中央 JKW 项目等。相关成果应用于航空航天任务,公开技术被 Asia Times、South China Morning Post、The SUN、人民日报、新华网、科学网等国内外媒体广泛报道。
董震
复旦大学
复旦大学计算机科学技术学院青年副研究员,中国计算机学会(CCF)软件工程专业委员会、智能机器人专业委员会执行委员。致力于智能化测试、机器人程序合成研究,先后参与完成多个国际联合项目,包括卡巴斯基公司、新加坡电信公司、澳大利亚蒙纳士大学等与新加坡国立大学的合作项目,在ICSE、FSE、ASE、ISSTA、NeurIPS、IJCAI等国际会议发表30余篇学术论文,并获得ICSE'20 杰出论文、AsiaCCS’21 最佳论文(1/370)等多个奖项。同时,担任多个国际期刊审稿人以及国际会议程序委员会成员,并获得ASE’22杰出评审、TOSEM杰出评审等称号。
戈维峰
复旦大学
复旦大学计算机科学技术学院青年副研究员、硕士生导师,复旦大学计算与智能创新学院领军人才班班导师。中国计算机学会青年精英论坛YOCSEF上海学术秘书,上海计算机学会多媒体专委会秘书长。主要从事计算机视觉、具身智能和人形机器人相关研究。以第一或通讯作者在TOG、ICCV、CVPR、NeurIPS等人工智能领域高水平期刊和会议发表论文30多篇。担任IEEE TCSVT、IEEE TNNLS、CVPR、ICCV、NeurIPS、AAAI、ICLR等重要会议期刊审稿人。主持国家自然科学基金委青年项目、上海市科学技术委员会“浦江人才计划”、上海市科委新一代信息技术重点专项等项目,并参加科学技术部重点研发计划课题多项。
访谈主题
具身智能系统:
从逻辑程序到神经网络
01
您如何理解“具身智能”这个概念?具身智能当前的学术研究和产业实践处于什么样的状况和水平?
02
当前具身智能特别是人形机器人技术发展迅猛,不断有各种新的演示系统和场景出现(例如机器人叠衣服、收拾房间等)。然而,具身智能要从小范围试验发展到大规模产业化应用还需要构建什么样的任务系统?不同行业和领域的具身智能系统在技术上存在哪些差异?
03
具身智能系统中逻辑程序和神经网络各自扮演着什么样的角色?具身智能系统是否像自动驾驶一样会朝着端到端模型的方向发展?未来的具身智能系统是否可以完全通过自然语言交互和驱动并通过AI模型实现端到端的完整控制?
04
具身智能系统的可靠性和安全性如何保障?需要发展什么样的分析、测试、验证和运维技术?
05
具身智能的发展面临哪些挑战?应对这些挑战有哪些可能的技术路线?具身智能会率先在哪些行业和领域应用?
Q&A记录
Question 1
主持人:您如何理解“具身智能”这个概念?具身智能当前的学术研究和产业实践处于什么样的状况和水平?
邱锡鹏:
具身智能并不是简单的人工智能加上机器人。它的核心在于智能系统具有一个物理身体,能够通过与环境的交互来学习、适应并进化。这种智能不仅仅局限于某些任务的完成,而是在更广泛的环境中进行自我学习与调整。目前,很多所谓的“具身智能”应用,实际上更多的是AI在机器人场景中的应用,像自动化的任务执行,比如搬运、装配等。但这些应用大多数缺乏真正的进化能力,也就是智能系统本身不能通过与外界的持续互动而持续优化自我,因此这不完全符合具身智能的定义。
观点讨论
@彭鑫:@邱锡鹏 邱老师的观点强调了这么几点:
1)智能系统的物理实体(身体);
2)更广泛的环境(而非固化的单一环境中)下的自我学习与调整;
3)通过与外界的持续交互持续自我进化。
@王昊奋:@彭鑫 这个观点比较AI,具身这次AI的都更乐观,机器人的反而谨慎。
王昊奋:
简单来说,具身智能(Embodied Intelligence)基于物理躯体与环境的紧密互动,强调多模态感知与真实行动。
学术界在机器人自主学习、深度强化学习与多模态大模型结合方面进展显著,例如斯坦福的LILAC框架减少约80%训练数据需求,英伟达Project GR00T将推理延迟降至200ms,亚马逊仓储机器人实现高效率分拣且错误率极低。然而,Sim2Real差距、多关节控制优化及长时任务持续学习等难题尚待突破。产业界目前聚焦物流、服务等特定场景,虽初见成效,但通用型具身智能仍在早期阶段。
随着2025年成为关键应用窗口,配套法律伦理与成本效益逐步完善,具身智能有望在教育、医疗、家庭服务等领域取得更广泛落地,并为下一代认知与行动融合的AI发展奠定基础。
董威:
我个人认为具身智能是一种典型的智能化人机物融合系统,是智能技术与物理实体、现实世界的紧密融合,其接受的信息来自于物理世界,并且做出的反馈应该通过物理系统作用于现实世界。具身智能近些年在学术研究和产业实践中已经取得不少成功,在很多领域有了显著发展,但其发展的空间依然很大。具身智能不仅仅从功能上能够满足人的很多需求,同时从人的感受、认同度、认知层面上看,能够更加深入的融入到人类的工作、生活中。因此我认为在未来,具身智能系统和机器人应该会成为人类社会的重要组成部分。
黄凯:
这个问题很有意思。我们学术圈最擅长的是发明新名词。举个栗子,我上本科的时候学的单片机,读博士的时候研究方向是嵌入式系统,刚开始授课的时候叫cyber physical systems。
现在是不是该叫具身智能。当然,为了吸引优秀的学生进实验室,说自己是做具身智能很重要,特别是在计算机学院。
具身智能的内核到底是什么,或者说它在当下技术环境的内核是什么,是很值得讨论的。它是横空出世,还是有延续性的,还是新酒装旧瓶,换汤不换药,是我们授课的时候要跟学生说清楚的,至少要给学生一个思考的启发。
观点讨论
@彭鑫:@黄凯 黄老师是机器人方面的专家,但观点更谨慎一点。
@彭鑫:@黄凯 对于“单片机-嵌入式系统-CPS”的变迁,我倒觉得确实是有一些本质变化的。一是其中的软件更加复杂(例如现在的智能汽车、机器人等CPS系统也会用Linux等操作系统和各种中间件)和现代化(例如容器化和服务化),二是连接的设备和其他资源更多,三是更加开放(例如支持动态更新和运行时调整)。
赵斌:
从宽泛到聚焦,我认为具身智能可以从三个层面来理解:
第一层次:AI走向物理世界,依托硬件实体。人工智能走向物理世界,需要依托硬件实体,要给online智能的概率统计模型一个条件(condition),是依托硬件实体条件下的智能。很多具备自动化能力可以被智能调用的硬件都在在这个范畴里,比如自动驾驶、智能音箱、自动化产线,以及CES上比较火的AI玩具等等。
第二层次:仿生学的启发,机器人是很好的载体。自然界智能存在于生物之中,特别是动物。人工智能是仿生的技术,无人机、机械臂、轮式机器人等也都是仿生的硬件,是人工智能的理想载体。
第三层次:人形机器人是milestone。人类被认为是具备最复杂、最高级智能的生物,因此,人形机器人是具身智能最综合的载体。
当前具身智能的学术和产业实践:1)结合非常紧密,很难分开,都是综合性团队,全栈技术链。2)很卷,很快,很有挑战,很初步。
戴文斌:
具身智能是人工智能向物理世界的扩展延伸,虽然上个世纪已经提出了类似的概念,但是目前已经具备了条件,目前来说主要聚焦在机器人,特别是人形机器人,而我觉得目前这轮最大的不同是希望人工智能能够自己演化而不是简单大模型加机器人。
观点讨论
@彭鑫:@戴文斌 “希望人工智能能够自己演化而不是简单大模型加机器人”这个能展开说下吗?您的意思是目前的大模型无法支持这种AI的自主演化?
@王昊奋:@彭鑫 这是戴老师的期望,这样其实就会有具身或这一轮真正的科学问题了。
@彭鑫:@王昊奋 我们从软件的角度看也是这种期望,不过我们关注的是“程序”是否可以成为这样的一种自演化的载体,即每一时刻机器人都有一个程序在控制(部分组件或动作由AI控制),但这个程序本身可以在运行时自适应调整(程序不变但运行时的策略和参数可以调整),同时在长周期上还可以发生演化(相当于传统软件的版本演化)。
@董震:@彭鑫 程序可解释、可扩展,非常好,但是程序运行在对物理世界构建的一个模型上,如何能够适应动态变化的物理世界是个关键问题。很多学者提出神经符号融合的方式,程序负责逻辑推理,神经网络应对不确定性。
@王昊奋:@彭鑫 嗯,这块是不是也可以同样对具身智能划分一下等级,类似自动驾驶的L1-L5。
@赵斌:@王昊奋 这个领域发展确实很快,想到就有人做到。团体标准《人形机器人分类分级应用指南》将人形机器人划分为L1-L4四个技术等级;团体标准《具身智能智能化发展阶段分级指南》规定了具身智能技术领域的智能化等级划分依据,采用系统功能性、自主性、泛化性的分级原则,按照感知、认知、决策、自主等核心能力作为分级要素,将智能化等级从基础到高级智能化水平划分为G1-G5五个阶段。
@王昊奋:@赵斌 不过我觉得可能需要一个普适的,另外始终觉得人形机器人和具身不能完全等号。
@赵斌:@王昊奋 是的,具身智能的标准还没听说,机械臂、轮式、足式、无人机等平台太多,可能不好统一
@王昊奋:@赵斌 嗯,即使是站在人工智能的角度,以语言为中心,以视觉为中心等都还有很多争论和不同方面的尝试。
@彭鑫:@陈小平 对于自动驾驶,追求最高等级的L5应该没啥问题,因为相当于有了一个不用乘客操心的AI司机。但对于行为更加开放、能力更加多元(能干很多不受控的事)的机器人,完全自主的L5是否是我们希望看到的可能还要讨论。设想我家里有个机器人保姆,虽然我也希望它自主聪明一点,但如果它过于自作主张可能我也会感到不安甚至害怕。还可以设想一个餐厅老板,雇佣的服务员太笨自然不好,但太自主主张不受制约可能也有问题(稍微大一点的餐厅一般都有自己的规章甚至流程,相当于procedure,不会让服务员完全随心所欲接待顾客)。
@陈小平:@彭鑫 2018年以前,我和科技界的多数人一样,倾向于无条件地支持最高级技术的实现和落地。现在我的观点有较大变化,特别是广泛调研了制造业的13个行业之后。简单地说,在中国当前的经济发展阶段,大规模落地L5非常可能带来巨大的社会问题。所以我现在倾向于更谨慎一些。
@彭鑫:@陈小平 陈老师的关切点主要是从高级别智能带来的社会影响(如就业)的角度。
@王昊奋:@陈小平 陈老师的观点变化有点类似Ilya看到了技术的发展太快,相关的监管以及配套措施没有跟上,产生的新的担心。
戈维峰:
具身智能(Embodied Intelligence)强调机器人或智能系统通过与物理空间的深度交互,形成对环境的动态、深刻、且综合的认知过程中所形成的能力。其核心思想是将智能系统具身于(embodied in)机器人从而将感知、行动与认知紧密结合,形成“观察-学习-行动”的智能行为范式,使机器人能够在真实世界中适应并完成多样化任务。具身智能有三条值得探讨的法则:1.具身智能不能仅依赖于预定义的复杂逻辑去适应场景;2.具身智能系统必须引入进化学习的机制以融入环境;3.环境不仅仅可以塑造智能体的物理行为,也需要重塑其认知架构。
当前学术界关于具身智能的研究还存在着大量的争论,虽然中国计算机学会计算机术语审定委员会给出了具身智能明确的定义。但是,具身智能领域的学术研究存在着明显的百花齐放、百家争鸣的特点,机器人大模型、组合模型、物理知识解析和认知架构设计等技术路线之间存在着明显的技术差异。产业界则在具身智能的应用实践方面有着更多经验和成功案例,尤其是以FigureAI、谷歌和特斯拉等为代表的科技公司更加注重具身智能技术范式的简明与可规模化,希望通过数据量的扩大带来具身智能技术性能的质变。但是总体而言,学术界和工业界都还处于关键技术的突破期,还需要时间去产生明确的突破。
董震:
从字面上理解为“具身+智能”,通过给AI赋予“身体”,使其能够与物理世界产生交互,并主动探索世界、认识世界、改变世界。
具体而言,存在两个不同的观点:1)强调具身交互对智能的影响,即通过与环境交互获得智能行为与适应性;2)强调具身交互对解决实际问题的作用,与真实物理世界交互完成任务。个人更偏向第二种观点,已解决实际问题为导向。
Question 2
主持人:当前具身智能特别是人形机器人技术发展迅猛,不断有各种新的演示系统和场景出现(例如机器人叠衣服、收拾房间等)。然而,具身智能要从小范围试验发展到大规模产业化应用还需要构建什么样的任务系统?不同行业和领域的具身智能系统在技术上存在哪些差异?
邱锡鹏:
目前,很多具身智能系统仅限于展示特定任务,比如叠衣服或收拾房间等。这些任务往往是精心设计的环境下进行的,因此机器人的表现较为固定,缺乏泛化能力。要使这些系统从小范围试验走向大规模产业化应用,首先需要解决“泛化性”问题。也就是说,机器人要能在不确定、复杂的现实环境中执行多样化任务。因此,类似于传统人工智能的大规模数据收集、标注和训练是必不可少的。而且,行业之间的具身智能系统在技术上的差异也很大。比如,工业机器人更多依赖高精度的机械设计和控制,而服务机器人则更强调感知与交互能力。因此,各个领域的任务系统需要根据具体的应用场景,开发相应的技术架构和数据模型。
观点讨论
@彭鑫:@邱锡鹏 邱老师的观点主要强调了不确定和复杂环境下的泛化能力,以及不同领域和行业的差异性。
王昊奋:
要实现具身智能从小规模试验到大规模产业化,核心在于构建多层次任务系统。首先,系统需结合多模态感知与自主决策,包括视觉、听觉与触觉等综合输入,以实时适配环境变化。其次,要具备长时记忆能力,即在交互和执行中不断累积经验,形成可追溯的任务执行档案,以便在后续情境中快速调用并改进动作策略。同时,必须搭建基础动作库与复杂任务模板,实现从细粒度操作到高层次策略的拆解与协作。
在实际落地过程中,具身智能主要面临四大挑战:首先,对数据质量与规模的需求巨大,尤其在动态环境中难以获取足够且高质量的训练样本;其次,实时计算与决策压力高,移动平台需在能耗与硬件资源受限的条件下保持高效运算;再次,安全与人机交互风险防控难度大,必须借助规范化测试和仿真验证来保障系统安全与友好度;最后,不同行业需求各异,工业领域偏重高精度与重复性,医疗及特殊场景则看重安全容错与复杂环境应对,而服务及家庭环境更强调多模态感知、人性化交互与灵活性。
面对多样的行业诉求,只有在构建统一的任务知识库、多层验证体系以及严格安全标准的同时,结合深度学习和持续迭代优化,才能实现具身智能的可扩展应用与产业规模化落地。工业机器人依赖更稳定的环境和重复性任务;服务型与家庭机器人需强化对人的理解和自然语言交互;医疗护理和特殊作业场景则关注极高的安全精度与合规性。随着基础研究和行业应用的双轮驱动,具身智能将在多场景的整合中不断完善与普及。
黄凯:
日本汽车厂商本田研发asimo机器人2022年正式退役,死在了黎明之初。我想表达两个层面的东西。一,人形机器人从去年开始备受各界关注,资本各种追捧,是马斯克吹的一个泡泡,还是asimo生不逢时而已。如今的人形机器人,技术上和asimo的差异性在哪里,为什么会可能成为新的生产力。二,某机器人领域院士最近在一个会上说,定制化的机器人在效率和成本上总是优于通用机器人的,这个就好比我们搞编译器,搞操作系统一样。那么人型机器人什么时候会像通用操作系统那样。当然这里还有一个区别是通用操作系统一统江湖是win-intel以特定公司的形式。
大规模产业化应用的决定因素是成本。为什么deepseek这么出圈,美帝人民如此关注,meta如此恐慌,就是成本上的降维打击。当然有人说是因为汇率。马斯克spaceX成功的最主要原因就是把每公斤载荷送到轨道的成本降到原来的十几分之一,我国发射成本的1/5。
观点讨论
@彭鑫:@黄凯 跟我近期经常想一个问题相关:未来机器人系统方面,到底是手脚和脑子都很好使的人形机器人的天下,还是一堆能力形态各异的专用机器人按需协作形成一个整体系统?我倾向于后者,通过软件+AI形成一个完整的人机物融合系统(还涉及人与机器人的协作,以及与各种软件定义的智能设备的交互,例如咖啡机不一定非要机器人点击按钮操作也可以通过软件API来驱动运转—当然取咖啡还需要机械臂和送餐机器人,比如通用人形机器人还得像人一样拿个拖把拖地,这效率肯定不如一个专门设计的拖地机器人)。
@黄凯:@彭鑫 然也然也。
@王昊奋:@彭鑫 这就等于Agent会重构原来的交互和呈现。
@戈维峰:@彭鑫 人形机器人一个目标是成为AI通用技术平台,另外一个目标是与人类生活环境紧耦合。作为通用机器人,其规模化后成本会下降。
@董威:@彭鑫 我觉得人形机器人更多是在需要考虑人的感受的场景下需要,例如医疗看护或者情感交流,和人形机器人交互总比和其他形状机器人交互的感觉要好。
董威:
对具身智能产业化还需构建什么样的任务系统,很难统一给出一个答案,因为不同的领域对智能化的需求、以及所需的传感器、动作器、控制算法等方面的要求有很大区别,不能一概而论。有哪些新的场景出现,这和社会发展以及人的创新思维等方面有很大关系。这些区别也体现在技术上可能会有很大的差异,但我觉得应该在共性的基础理论方面进行深入探索并取得新的突破,这其实包括了智能神经模块、逻辑程序模块和相关硬件组成所形成的复杂智能系统,其理论模型、语义表示、交互与运行机理等方面可能都和传统系统有区别,对于具身智能系统本身应该加强共性的理论基础研究。
赵斌:
从小范围试验发展到大规模产业化应用还需要做很多:
1)复杂任务规划能力,这应该是大模型要做的,这也是大家常说的“大脑”;
2)技能在不同平台、环境、任务中的泛化能力,这是具身智能大模型关注的重点,也是大家常说的“小脑”;
3)不同智能体之间的协同能力,现在很多研究还没到这一步;
4)网络、供能、结构化场景等基础设施建设;
5)最重要的是找到高价值场景作为突破口,让大家持续看到希望。
现在具身智能的研究大都强调泛化、通用,深入到行业进行差异化研究相对较少。真正深入进去,航天、核能等强无人场景应该是高价值场景,技术路线应该是通用的,参考CV和NLP的大规模数据驱动的端到端训练。差异主要体现在基础设施、数据类型和任务复杂度不一样。
观点讨论
@王昊奋:@赵斌 对的,大小脑以及多智能体协同,目前是大家关注的热点。场景可能还需要细分成几类,而不是简单的划分通用和专用。
@彭鑫:@赵斌 赵老师提到了大脑和小脑的问题。确实,我们人在手脚等局部的微观控制很多时候都更像是一个“不经过大脑”的局部反应。另外还强调了多智能体协同以及基础设施建设。基础设施方面,我觉得应该会走向基于容器的云原生方向。
@戈维峰:@彭鑫 机器人的运动控制系统(小脑)收到大脑制约,但是拥有高度自主性的。
@彭鑫:@戈维峰 嗯,整体协调、局部自主。
戴文斌:
具身智能的初衷是设计成人形机器人可以使用人的工具,从而能取代人的工作。现实情况是人形机器人的可靠性相比四轴或者六轴的机械臂稳定性更加差,目前来说即使是居家都有很大的风险,此外维护也是很大的问题,因此可能得在其他一些对人危险的场景来先应用。
董震:
虽然已经有很多惊艳的演示场景,但到实际的落地部署还有距离,仍面临诸多挑战。首先,泛化能力不足,尤其是跨场景的泛化;对环境动态变化自适应能力也是不足够的;其次,可靠性不足,由于物理世界不确定性的,导致任务不能稳定的完成,很多展示视频都是“百里挑一”的Demo,还达不到实际部署的要求;最后,安全性考虑不够,具身智能系统运行保障人身安全这块还是不够。
个人觉得在提升具身智能感知,导航、规划、操作能力的同时,还需结合具体场景从系统层面着手推进。
观点讨论
@王昊奋:@董震 和目前文生视频以及一年前的文生图一样。
@董震:@王昊奋 主要是因为数据不够吗?
@王昊奋:@董震 你可以这么认为。高质量多样化,且符合真实世界的复杂过程数据永远是缺失的。
@戈维峰:@王昊奋 所以必须在做中学、在学中做,数据驱动的方法只适合做预训练。
@王昊奋:@戈维峰 是的,所以各种学习范式转化,以及对应的scaling law是需要重点琢磨的。
@戈维峰:@王昊奋 同意。现在机器学习还有很多点可以研究。
@赵斌:@王昊奋 是的,打开online leanring的封印,实现从“状态智能”到“成长型”智能的跃迁,是下一代人工智能的重点。如何实现one-shot强化调优,很关键。
@彭鑫:@赵斌 这个倒是跟软件领域近一二十年在追求的自适应、自演化目标一致。这两个概念我可以用一二十年前合作过的前多伦多大学教授John Mylopoulos的例子来说明下:一条变色龙在不同环境下改变颜色是自适应,而整个变色龙种群发生的变化(比如学会断尾)则属于自演化。
@王昊奋:@彭鑫 嗯,近期还是自适应更关注,中长线会关注自演化。
@董震:@王昊奋 有自演化这块的最新进展吗?
@王昊奋:@董震 大模型方面其实更多是在涌现和顿悟等方面看一下新技能和新任务习得方面,这块其实也属于演化的范畴。
@董震:@王昊奋 感觉大模型持续学习,大部分都落在灾难性遗忘这块。
@王昊奋:@董震 RL based scaling会有一些新的变化。
@董震:@赵斌 data efficient learning里有探讨这个问题。
@王昊奋:@赵斌 online learning + continuous learning是关键。同时具备deduction的能力,而不仅仅是induction是最后inference time各种约束和底线保证(不出乱子)的基础。
@赵斌:@王昊奋 是啊,我感觉这是源头的研究,现在大家都做scale up,其实是工程问题,考验资源调度能力。现在具身领域大都是华人在卷,多做一些这样的思考和工作,人工智能领域,可能就从具身智能开始,中美攻守易型,ps: 不过我看DeepSeek已经让西方很慌了。
戈维峰:
具身智能要需要构造具身智能大脑、具身智能小脑、具身智能脑干和具身智能操作系统。其中具身智能大脑是机器人智能化的核心,负责解析环境、理解人类指令、做出决策并规划机器人的任务执行过程。具身智能小脑负责精准控制机器人身体姿态使其可以完成大脑的任务规划。具身伺服控制则作为机器人核心动力驱动装置的控制系统,需要具备高度的稳定性和精确性。具身智能操作系统作为贯通机器人底层智能算法与高层人机交互界面的平台,需要高度的通用性、稳定性和安全性。
具身智能在不同行业和领域的应用有不同的侧重,在人形机器人所最具优势的环境下,如家政服务、医疗陪护和导航展览等场景下,智能化水平和安全性是具身智能系统的核心指标。而对于工业生产、安全巡检和特种消防等场景,具身智能系统的控制灵活性、任务完成精准度和可靠性等指标更为重要。其他领域如服务机器人等行业,具体的具身智能技术方向则依赖于其商业场景和商业模式。
Question 3
主持人:具身智能系统中逻辑程序和神经网络各自扮演着什么样的角色?具身智能系统是否像自动驾驶一样会朝着端到端模型的方向发展?未来的具身智能系统是否可以完全通过自然语言交互和驱动并通过AI模型实现端到端的完整控制?
邱锡鹏:
在具身智能系统中,逻辑程序和神经网络各自承担着不同的角色。逻辑程序负责任务的高层规划与决策,而神经网络则更多负责感知、学习和决策中的低层次细节。虽然自动驾驶也在朝着端到端模型的发展,但具身智能的挑战更多在于它所涉及的动作种类和任务复杂度。例如,人形机器人的动作涉及到协调性和灵活性,需要更多的实时控制和调整,而自动驾驶主要聚焦于环境的感知和理解。因此,完全依赖端到端模型来控制机器人可能会面临更多的困难。未来,具身智能可能会借助像大语言模型这样的AI系统来进行高层交互和指令传递,但操作的执行很可能会通过不同的子系统进行分离和优化,而不是完全端到端。
王昊奋:
在具身智能系统中,逻辑程序侧重高层任务规划与安全约束,实现可解释且可验证的规则推理;神经网络则擅长多模态感知、动作生成和非线性特征提取。二者的耦合能在复杂环境下兼具可靠性与灵活度。
虽然端到端模型在某些领域(如自动驾驶)具备潜力,但完全从感知到执行的闭环控制仍面临复杂度和安全约束挑战。目前更可行的路径是采用分层混合架构:由逻辑规则保障基础安全并提供可解释性,同时依赖深度学习模块实现感知与动态决策。
对于自然语言驱动的“端到端”控制,仍需突破物理常识嵌入、实时性能以及安全验证等瓶颈。短期内,自然语言更适合作为高层指令接口,与底层可靠控制相结合;未来在大模型与多模态技术的推进下,具身智能系统有望逐步迈向真正的一体化端到端决策与交互方式。
董威:
至少从目前来看,逻辑程序和神经网络还无法互相替代。在拥有大量数据支持、能够从数据中学习到智能模型、且模型的可信度能够达相关要求的场景,神经网络可以代替逻辑程序,但对于一些逻辑上更加复杂、或者对结果的可信度要求非常高、或者从成本代价等方面不必要的功能,人们应该还是倾向于逻辑程序的实现。具身智能系统是否都会朝端到端的方向发展,我觉得也不能一概而论,因为并不是所有的具身智能系统的执行都是能通过神经网络模型来决策,其正确或者成功的标准、具体运行的过程和步骤,对于不同任务场景、不同人来说,需要一些带有逻辑性的任务定制与控制。
观点讨论
@彭鑫:@董威 在自动驾驶领域,端到端AI模型似乎已经成为大家公认的主流。但在环境和行为更复杂、更开放的具身智能和机器人系统中,可能还不一定。
@王昊奋:@彭鑫 好像也不是吧,感知-规划-控制也未必合在一起的。
@黄凯:@彭鑫 端到端业界应该也是有所畏惧的吧,用自然语言+编译去驱动机器人,我们计算机可以主导。我们课题组也在做尝试。不过投的文章被拒了。自然语言+编译是指用自然语言作为人机交互,用编译器生成最终控制机器人的指令,比如说可以更细化到planning的具体参数
@彭鑫:@黄凯 这是比较“软件”化的思路,跟我们比较接近。
@董震:@黄凯 赞同黄老师的观点,如何从语言设计、编译、执行层面提升程序的灵活性,提升其对物理世界变化的适应性,感觉比较靠谱。
戴文斌:
我个人是做制造业的,对制造业来说端到端大模型目前还不太现实,主要困难有两点,第一是缺乏数据,目前制造业对运行数据根本没有记录或者缺失严重,根本无法形成有效的训练集。第二是制造业内行业差距较大,所以模型不具备通用性。第三是工业对确定性要求十分高,目前依靠端到端大模型无法满足工艺要求。
观点讨论
@彭鑫:@戴文斌 这样看起来具身智能和机器人系统有一个从封闭到开放的频谱,工业机器人系统应该在封闭的这一头,可靠性和确定性要求高,主要程序化控制为主。
@董震:@戴文斌 最近一篇实证研究显示工业级还很少采用基于AI的方案。
赵斌:
逻辑程序主要服务于底层控制(这部分做具身智能的人,好像不太碰),神经网络是上层控制和决策。逻辑程序类似于基本的运动能力,神经网络负责干什么、怎么动。
具身智能会像端到端模型发展,但是具身智能只是“片段性”研究,现在聚焦observation+instruction作为输入,action作为输出。但是真正要让人工智能走向物理世界,现阶段很难有一个模型能做到,肯定是要大家分工去做然后总体统一的,关键在于“总体”要统一好。
完全通过自然语言交互和驱动并通过AI模型实现端到端的完整控制,就是现在具身智能的主战场,现在还很初步,但没看到天花板和理论限制,所以乐观主义相信一定能行,悲观主义会说还看不清。
董震:
当前是以“连接”主义为主导,采集大量数据训练神经网络模型的方式。例如,Google DeepMind通过采集真实机器人控制数据并结合互联网数据迁移来提升机器人能力;Tesla则通过招募大量数据采集人员获取人形机器人训练数据。很多学者认为基础模型(如语言模型、视觉模型和多模态大模型等)也将不断演化,并逐步向端到端大模型架构收敛。
但个人觉得,完全采用数据驱动的路线有些理想化了,尤其是我们并没有像互联网规模的具身任务数据,采集或生成成本是非常高的。另一方面,就像图灵奖获得者杨立昆所说,大模型在复杂任务上的推理能力非常有限,是否能够延续scaling law还无定论。我到认为神经符合融合编程,融合神经网络的泛化能力以及程序的逻辑结构提升具身推理能力,是一个比较具有潜力的路线。
戈维峰:
具身智能系统将会是一个复杂系统,存在着许多不同模块。逻辑程序作为连接不同模块的媒介负责组织不同的具身智能子系统,而神经网络则作为具体功能的实现载体,负责实现各种复杂的能力。具身智能系统的首要特点就是具备自进化能力,其技术复杂度高出自动驾驶非常多,端到端模型应该会是具身智能系统的初级模式,而更复杂的形式则必然是专家系统。未来具身智能系统需要自然语言作为指定输入,具身智能系统会给定相应输出,但是模型方面应该不会是端到端的,甚至具身智能系统的输出过程也不完全一定是端到端的,因为很多场景下需要人类的一些过程辅助才可以精准完成任务。事实上,拥有人类过程辅助的具身智能系统才更符合未来人与机器人共存的社会愿景。如果机器人过于智能,完全取代人类的话,将会引发各种社会伦理问题。
Question 4
主持人:具身智能系统的可靠性和安全性如何保障?需要发展什么样的分析、测试、验证和运维技术?
邱锡鹏:
具身智能的安全性与可靠性不仅依赖于AI系统本身的内生安全性,还需要建立一套完整的监控机制,确保机器人在运行过程中始终处于可控状态。与传统的AI应用不同,具身智能系统的物理性质使得它在执行任务时可能会面临更多的不可预见风险,因此需要一个健全的外部监控机制来及时捕捉异常并做出反应。此外,可靠性还涉及到硬件的耐用性和算法的稳定性,尤其是在高度动态的环境中,如何确保机器人能够持续高效、安全地执行任务。
王昊奋:
具身智能系统的可靠性与安全性关乎其在真实场景的广泛应用,需从架构设计、测试验证与运维管理三大层面构建全生命周期保障体系。
首先,在系统架构上通过分层与冗余设计实现关键功能的多重备份,借助形式化验证与模型检测等方法保证控制逻辑的正确性与可解释性。其次,在测试与验证环节,利用高保真的仿真环境(如数字孪生)与硬件在环测试,对极端场景与边界条件进行全覆盖,并辅以对抗性测试评估感知与决策模块的鲁棒性,自动化回归测试则加速迭代优化。最后,在运维管理方面,实时监控与故障诊断可及时发现异常,对算法与系统进行在线学习和安全补丁更新,保障持续进化与风险应对。
未来需重点攻关神经符号融合的形式化验证技术,强化端到端安全度量标准,并完善跨模态因果推理与决策可视化手段,从而让具身智能系统在复杂多变的真实环境中实现安全稳定的自主运行。
董威:
对于具身智能系统的可靠性和安全性保障,传统软件在测试、验证、运维面临的挑战依然存在,同时对于神经网络等难以解释的黑盒模块的可靠安全保证又带来更多挑战,因此在理论上面临比以前更大的困难。但在实践中,多数对于可靠性和安全性没有那么严格的系统,依然是可以接受的。对于真正要求很高的关键系统,那么运行时保证的相关技术越来越重要,因为目前难以在开发过程确保智能系统的安全可靠。运行时保证可以一方面可以通过人的介入,尽管在智能化和自动化方面有所损失,但总体上相对于以前系统,其智能化程度、成本效率等方面还是会有明显提升;另一方面是自动化的运行时保证技术,例如通过基于严格规约或者形式化方法的运行时验证、监控、诊断、增强等,可以将神经程序和传统逻辑方法的优势结合起来,又能在安全性和可靠性方面满足需要。
黄凯:
这个问题提得特别好,分析,测试,验证,运维,每个词都是一个研究方向,目前都没有很好的探究,更不要说解决方案,而且是成本可接受的解决方案。我想提另外两点:
1)数据的污染,会不会以后都是常凯申,孟修斯这种。
2)Deepseek这几天出圈了。 我大学同学群这几天也在讨论。用deepseekR1,不同人对同一个问题贴出了不同的答案。
首先我们看两个答案,都非常有逻辑性,甚至很难分辨是不是人的回答。但是但是但是,同一个问题两个截然不同答案,对某些领域来说,是件很可怕的事情。特别是如果作为机器人的大脑。
有一个更有意思的思考,我们是否要给大模型打思想钢印,怎么打,打哪些,打domain-specific的钢印。
观点讨论
@王昊奋:@黄凯 哈哈,你这几个都是AI的人目前头疼以及在考虑的呀
赵斌:
安全性和可靠性,现在确实这方面研究是非常不够的,大家都在卷性能,还没有很好的去做安全评估,这个未来非常重要,尤其是具身智能真的有效果之后。我现在说不好,但是呼吁大家去做。估计刚开始大家会从成熟的安全方案开始,比如大模型的对齐,软件安全测试等等。
戴文斌:
以制造业的可靠性要求来说目前具身智能还差几个数量级的要求,因此我们可能更多在决策阶段使用AI,而在执行阶段依然依靠模块化或者规则。
戈维峰:
具身智能系统的可靠性和安全性需要从两个方面进行保障:1.具身智能算法的内生安全,即智能算法本身存在的内生安全缺陷影响具身智能系统工作的可靠性;2.具身智能系统的体系安全,即具身智能系统在部署的过程中系统组织架构是否具有高度的可靠性和安全性。具身智能算法本身的分析和测试等工作需要同人工智能基础理论相联系,而整个系统的分析测试和验证运维则依赖于软件分析测试本身已经积累的相关技术。
董震:
具身智能系统涉及与物理世界的交互,可靠性和安全性保障非常困难。由于目前主流路线是数据驱动,很多情况下是没有规约的,导致传统的测试、验证方法不适用。运行时验证的思路还比较适用,通过对物理环境动态建模,在模型上验证思路,这对模型构建的准确度要求很高;另外,模拟环境也很重要,很多场景可以在模拟环境里测试、验证。
彭鑫:
具身智能系统的安全和可靠性保障需要依赖另一套非AI的系统?就像有些学者提到的要把机器人系统的行为限制在一定的安全范围内。
这就像一个企业允许员工做一些自主创新(例如各自想办法吸引客户)但同时有一些基本的监管措施(这套监管系统独立于员工自身的系统)。
软件领域的测试和运维应该会在具身智能系统的可靠性和安全性保障中扮演重要角色。这里的运维涉及内部(计算机世界)和外部(物理环境)监控数据的收集和分析,从而支持异常检测和故障定位等目标。
观点讨论
@赵斌:@彭鑫 可能要复用一些现有安全生产、机械装置安全性要求的方案。以及通过大模型对齐的方式,让他符合人类价值观,以及“交互”对齐,不能做出侵犯人类利益的事情。
@王昊奋:@彭鑫 我觉得也可以是纯AI的,只是两套系统的目的不同。只要外在behavior可以观察,可以解释,同时可以干预调整,其实是否AI都ok,我的观点哈
@彭鑫:@王昊奋 这倒也是。现在的软件测试和运维本身也大量使用了AI技术。可观察、可解释、可干预、可调整这几个特性我觉得很重要。具身智能系统需由人来掌控。我们希望机器人有较高的智能和自主性,但仍然是一个“聪明的服务员和助手”,而不能越俎代庖。
Question 5
主持人:具身智能的发展面临哪些挑战?应对这些挑战有哪些可能的技术路线?具身智能会率先在哪些行业和领域应用?
邱锡鹏:
具身智能面临的挑战主要集中在三个方面:硬件、数据和自我进化算法。硬件的开发仍然是一个瓶颈,尤其是在高精度和高可靠性的要求下,很多机械部件和传感器的技术仍在不断进步;数据方面,尤其是复杂环境下的多模态数据采集和处理,依然是个难题;而自我进化算法则是能够让具身智能持续改进和优化的关键。为了解决这些挑战,技术路线可能会倾向于先在相对简单、封闭的环境中实现具身智能系统的应用,例如送餐机器人、清洁机器人等,这些领域的技术难度相对较低,也有现成的应用场景和市场需求。随着技术的发展,具身智能将逐步渗透到更为复杂的行业,比如医疗、物流和个性化服务等领域。
王昊奋:
具身智能的核心挑战主要包括复杂多模态感知的鲁棒性、动态场景下的实时决策与控制能力,以及算法可解释性与系统安全性。在真实环境中,不确定因素和极端场景会暴露出深度模型的泛化短板;多模态数据的高效获取与标注、仿真与现实的域间迁移也给大规模训练带来困难。同时,深度网络的“黑箱”属性和开放环境中的故障恢复机制不足,导致安全与可控性难以满足高风险领域的要求。
针对这些问题,关键技术路线包括:其一,发展多模态神经符号融合,既利用深度网络提升感知与决策准确率,又通过逻辑推理增强物理常识理解;其二,采用仿真与现实协同训练,通过高保真数字孪生平台与自动化测试工具,缩短模型从实验室到实地的迁移距离;其三,强化学习与自适应控制,结合形式化验证方法提升可靠性;其四,云端与边缘的协同架构,兼顾高算力与低时延;其五,通过可解释性AI与形式化验证,确保在医疗、自动驾驶等敏感领域的安全合规。
就产业落地而言,具身智能有望在制造与仓储物流等场景相对标准化、风险可控的行业率先应用,用于协作机器人、智能分拣、危险环境检修等任务。随后,医疗辅助与康复训练、无人配送和家用服务机器人将在需高水平人机交互的领域逐步拓展,最终迈向城市管理、公共安全和教育陪伴等更广泛场景,为社会创造新的增长点与变革契机。
黄凯:
能不能发展取决于能不能真正落地企业产生新的利润增长点。当然最后企业不买单,我们还可以说这是基础研究,离落地还有一段距离。
董威:
具身智能发展既有计算机科学、人工智能、数据科学等方面的挑战,这个大家都比价熟悉,同时也有材料、控制、机械等方面的挑战,这方面对于我们计算机领域来说相对就不是很熟悉了。对于率先应用的领域,我觉得可能有几类。一类是一些对安全性可靠性不是非常敏感、使用时有一定的容错空间,在神经模块、逻辑控制或者物理辅助的某一个方面有极度特长、而对其他方面要求不高的领域,例如智能陪护、智能教辅、重复性劳动等方面吧。另一类可能是比较迫切、即使还不非常成熟但也需要发展应用的领域,例如国防、救灾等领域。
赵斌:
具身智能的发展数据是最大挑战,这是这一代人工智能采用依托GPU进行数据驱动的思维导致的,也是可以抄LLM能力涌现作业的技术路线,也是成本最低但又看不到天花板的路线。
数据问题的解决分三个方面:真机数据(高质量,高成本),仿真数据(sim2real gap,依托AIGC技术scale up相对容易,但同质化严重,且只是视觉数据容易仿真,流体、摩擦力、软体等都还有很大差距,存在理论限制),互联网视频图像数据(低质量,低成本,有效果但还不是很明显)。
我们团队比较热衷真机实采,认为“仿真”要比真机实采还要“难”和“贵”。一方面物理仿真方法上存在很多不足,几十年都没解决。另一方面,仿真也很难走量,能走量的是数据增强,但是同质化很严重,存在性能天花板。只要不能走量,就没办法scale up。我们团队主要聚焦降低数采成本,甚至实现零成本无感知泛在数采。我认为这不仅是具身要做的,而且是各行各业接入这一代人工智能的必要方式,行业部门要养成数据采集和管理的习惯。
具身智能还是先会在家用场景(类似扫地机器人)、工业制造(结构化,但是不一定能超过流水线的性能和成本)应用,主要是现在公司都在朝这个方向努力,有大量试错的机会和经验。大家目标一致,众人拾柴火焰高。但我认为高价值场景还是航天、太空、核等强无人场景。
观点讨论
@王昊奋:@赵斌 认为“仿真”要比真机实采还要“难”和“贵”。这个观点我是认同的,目前sythesis data其实就遇到这样的问题。
戴文斌:
最大挑战还是数据不够的话怎么解决,特别在制造业系统连基本互联都成问题的情况下,即使有再聪明的头脑,也没法发挥出其价值。简单重复的工作目前机器人已经完成的很好了,所以挑战还是如何完成随机复杂任务,还要保证可靠性。
观点讨论
@彭鑫:@戴文斌 嗯,具身智能系统需要明确场景频谱,从封闭到开放、从有限互联到充分互联、从低确定性到高确定性等,区别都挺大。
@王昊奋:@彭鑫 数据那点事,以及说的从封闭到开放的频谱,还有神经符号结合,都是大坑,值得多次讨论。
@彭鑫:@王昊奋 嗯,这些都值得深入挖掘。比如从封闭到开放的频谱,不捋清楚的话,不同的人说着同样的话(具身智能、机器人)脑子里想的可能是完全不同的东西。
@王昊奋:@彭鑫 说不定是田字格(二维)甚至更多维度组织下的场景划分。
戈维峰:
具身智能发展的主要挑战就是人工智能基础理论的突破、算法与算力的匹配和数据采集与隐私安全等问题。为了突破具身智能基础理论,现阶段学术界和工业界展开了大量探索,机器人大模型、组合专家模型、认知演化计算和虚实融合迁移等方向都有可能产生大的突破,进而爆发出一系列相关技术。具身智能目前看来最有可能在导航展览、酒店服务、工业生产和康养陪护等领域产生突破,产生大量的应用,进而推动社会生产力和形态的变革。
董震:
首先就是数据缺失的挑战,虽然已有很多低成本的数据采集的技术以及数据合成技术的探索,但是数据规模远未达到期望的规模;其次,缺少面向边端的即时推理模型;在软件层面,缺乏统一的操作系统和标准化的软件开发工具链,目前市场上很多种机器人操作系统如ROS或者基于Linux自行开发等,由于采用了大量开源组件,常会出现兼容性或版本升级导致系统不可用的情况,增加了开发难度,带来开发时间和成本的增加;硬件上也面临耐用性与可靠性的挑战。当前看,具身智能在仓储物流简单场景的应用相对靠前,随着技术的发展逐步渗透到更为复杂的行业,比如医疗、护理照看个性化服务等领域。
观点讨论
@彭鑫:@董震 “在软件层面,缺乏统一的操作系统和标准化的软件开发工具链,目前市场上很多种机器人操作系统如ROS或者基于Linux自行开发等,由于采用了大量开源组件,常会出现兼容性或版本升级导致系统不可用的情况,增加了开发难度,带来开发时间和成本的增加”:这个情况跟智能汽车产业的状况差不多。
访谈结束
CodeWisdom
一个有知识的软工公众号
发现智能化编程之道