来源:物联网智库 原创
作者:彭昭(智次方创始人、云和资本联合创始合伙人)
这是我的第358篇专栏文章。
2025年伊始,科技大咖们的判断出奇一致,黄仁勋、奥特曼、扎克伯格…都认为2025是AI智能代理之年。
生成式AI→现在时
代理型AI→马上到来
实体型AI→不远将来
这是英伟达CEO黄仁勋在消费电子展CES 2025上的最新判断。
他在主题演讲中梳理了AI技术的进化路径,从感知型AI,到生成式AI,再到现阶段发展火热的代理型AI,最终实现具备传感与执行功能的物理型AI。
而伴随着AI代理的涌现,有一类基于设备的人工智能可能会优先发生,就是AIoT代理。这些代理并不像物理型AI那样基于自动驾驶的汽车或者人形机器人等“大件”,而是基于小型的端侧设备,实现AI代理的功能。
我们都知道,AIoT是人工智能AI和物联网IoT的融合,它通过实现智能数据分析、决策和自主行动,正在彻底改变行业。
AIoT代理,即AI代理与物联网IoT设备的融合,处于这一转型的最前沿。这些AIoT智能代理旨在增强物联网系统的功能、连接性和自主性,从而为各个领域带来前所未有的机遇和应用。
在AIoT 2.0时代,发展的核心将是AIoT代理,即能够感知环境、推理并采取行动实现特定目标的智能软硬件实体。这些代理不仅仅是被动传感器;它们是主动的,能够从数据和经验中学习,不断提高性能。
其实AIoT代理并不是异想天开,在2024年第一季度,李飞飞团队已经联合微软发表了一系列论文,探讨了与物理世界相结合的AI代理的趋势、分类、如何构建通用基础模型,以及存在的挑战。
这些论文包括:《Agent AI- Surveying the Horizons of Multimodal Interaction》《Position Paper- Agent AI Towards a Holistic Intelligence》《An Interactive Agent Foundation Model》。
本文综合上述论文的成果,并做以延展,介绍什么是AIoT代理、AIoT代理的形态以及可能的应用场景。
什么是AIoT代理
AIoT代理是AI代理和IoT的融合,是指将AI功能与IoT设备集成的自主软件实体。这些代理可实现智能决策、数据分析以及设备、人类和物理环境之间的实时交互。
AIoT代理代表了AI代理(具有自主决策能力的AI系统)与物联网(设备收集和传输数据)的融合。与依赖基于云的分析的传统物联网系统不同,AIoT代理具有情境感知、主动性,并且能够随着时间的推移进行学习。
在论文《Agent AI- Surveying the Horizons of Multimodal Interaction》中,研究团队从“空间智能”的视角,讨论了Agent在物理和虚拟环境中的交互性。
论文中的图片,展示了多模态跨现实感知AI代理的架构,概括了AI代理与环境交互、学习和决策的关键组成部分。具体来说,该架构包括以下几个核心模块:
环境与感知:通过感知模块,智能体接收来自物理世界或虚拟世界的信息输入,获取对环境的观测。
智能体学习:该模块负责智能体的学习过程,包括从环境交互中学习(如强化学习)、从专家示范中学习(如模仿学习)等。
记忆:记忆模块为Agent提供长期记忆和短期记忆能力。长期记忆储存Agent对世界的知识和理解,而短期记忆则跟踪Agent在执行任务过程中的状态变化历史,以支持及时地调整策略。
行动:根据感知、学习、记忆等模块的信息,Agent通过行动模块采取相应动作,并影响外部环境。
认知:认知模块是统筹协调感知、学习、记忆、行动等功能的核心,体现了Agent的整体认知能力,使其在复杂多变的环境中做出恰当反应。
总的来说,该架构突出了感知、学习、记忆、行动、认知等要素在塑造Agent整体智能方面的重要作用,以及Agent与物理和虚拟环境持续交互、积累经验和知识的动态过程。
而AIoT代理则融合了语言理解、视觉感知、运动控制、任务规划等多种能力,代表了通用人工智能AGI发展的一个重要方向。近年来,大型语言模型LLM、视觉语言预训练模型VLM等大模型的突破,为赋予AIoT代理更强大的感知认知和环境交互能力带来了新的机遇。
一方面,大语言模型可以让AIoT代理获得接近人类的语言理解和语言生成能力,使其可以更自然地与使用者对话交流,快速理解指令并做出相应行动。
另一方面,视觉语言模型使AIoT代理具备匹配甚至超越人眼的图像识别能力,可以精准感知和定位环境中的物体,并对视觉输入信息进行语义理解。
借鉴论文中的架构,AIoT智能的基本架构可以简化为上图,简化后的架构包含以下组成部分:
感知:Agent通过感知模块接收外界环境的信息输入,获取对世界的观测。这是Agent实现感知环境、采集数据的基础。
推理:推理模块是Agent的核心部件,它在感知信息的基础上,利用知识库中的世界知识,对当前环境状态进行分析、判断,并规划后续行动。推理过程体现了Agent的智能性和自主性。
行动:根据推理的结果,Agent通过行动模块采取相应的动作,并影响外部环境,这是Agent实现目标的关键。
交互:Agent通过与环境的持续交互来感知外界变化、积累知识、并评估行动效果。交互是Agent实现感知-决策-行动闭环的纽带。
世界知识库:这是Agent的知识库,存储了其对世界的理解和记忆。Agent在推理决策时会调用这些知识。随着与环境交互的不断深入,其知识库也在持续扩充和更新。
学习:学习模块使得Agent能够在与环境的交互中,不断积累新知识、优化已有策略。通过学习,Agent的世界知识库得以扩充,行为策略得以改进,智能水平得以提升。
总的来说,该架构展示了一个智能Agent“感知→推理→行动”的工作流程,以及知识、学习、交互等要素在该流程中扮演的重要角色。
AIoT代理将人工智能的认知能力与物联网设备的连接和数据收集能力相结合。这些代理不仅可以收集和分析来自不同来源的数据,还可以自主决策并执行操作以优化流程和结果。人工智能和物联网的集成产生了协同效应,从而打造出更智能、响应更快、适应性更强的系统。
AIoT代理以大型AI模型为核心,通过感知、推理、决策、执行等环节与物理世界互动,有望成为人工智能落地应用的重要抓手,为万物智联AIoT 2.0时代的到来开启崭新的可能性。
这些系统不仅能对数据做出反应,还能主动预测和采取行动,这对于需要精确性和灵活性的行业来说非常有价值。
更进一步,在论文《Position Paper- Agent AI Towards a Holistic Intelligence》中,研究团队提出了通用型AI代理的整体框架和关键组成部分。
在这一框架下,AIoT代理可以与其他类型的AI代理一起,被置于一个包含物理世界、VR / AR / MR、元宇宙等多重现实的环境中,旨在实现整体智能和具有涌现能力的通用人工智能。
具体来看,该框架涵盖了以下几个层次:
跨模态层:强调Agent需要具备多模态理解和交互能力,包括同情心/意识、人机交互、具身操纵、基础设施和智能系统等方面。
任务层:细化了智能体需要执行的具体任务,涉及感知、认知、医疗保健、导航、行为识别和预测、语言理解、知识和推理等方面。
个体模型层:描述了构成Agent的各类基础模型,包括生成模型、分类模型、视觉/分割模型、音频模型、情感模型和神经模型等。
基础模型层:概括了支撑上述各层模型训练所需的通用基础模型,涵盖视觉-语言标注数据、图像数据、视频数据、语音情感数据、神经数据、医疗数据、跟踪数据、行为数据、语言知识数据和逻辑数据等。
总之,该框架从现实环境复杂性、跨模态理解、任务多样性、模型异构性等多个维度,系统地刻画了实现通用人工智能所需的关键要素。而AIoT代理或许将成为其中的重要组成部分。
AIoT代理的分类
在大型预训练模型、小模型等加持下,AIoT代理将逐步摆脱被动接受指令的桎梏,走向更加智能化、自主化的发展阶段。它们将具备主动探索环境、持续学习进化的能力,通过从各类数据源汲取新知,不断完善和更新自身的知识与技能。
基于知识推理和目标规划,AIoT代理可针对环境的动态变化自主地调整策略和行为,完成各类复杂的任务。
基于论文《Agent AI- Surveying the Horizons of Multimodal Interaction》中的AI代理分类,AIoT代理可以包含如下类别:
1、具身AIoT代理
具身人工智能的目标是创造出诸如机器人等智能体,使其学会创造性地解决需要与环境交互的具有挑战性的任务。
尽管这是一个重大的挑战,但深度学习的重要进展以及大型数据集(如ImageNet)可用性的不断提高,已经在许多此前被认为棘手的AI任务上实现了超人的表现。这些进展极大地推动了具身AI的发展,使得越来越多的用户能够朝着与机器进行交互的智能Agent迅速发展。
具身AIoT代理又可进一步划分为行动AIoT代理和交互AIoT代理。
行动AIoT代理是指需要在模拟的物理环境或真实世界中执行物理动作的Agent。具体而言,它们需要积极地与环境进行交互活动。
交互AIoT代理是指可以与世界交互的Agent,是一个比行动智能体更广泛的类别。它们的交互形式不一定需要物理动作,但可能涉及向用户传递信息或修改环境。
例如,一个具身交互AIoT代理可以通过对话回答用户关于某个主题的问题,或帮助用户像聊天机器人一样解析现有信息。
2、仿真与环境AIoT代理
仿真和环境AIoT代理是在模拟环境中相互交互和通信的独立实体。它们用于对复杂系统进行建模和仿真。AIoT代理学习如何在环境中行动的一种有效方法是通过与环境的交互进行反复试错。一种代表性方法是强化学习,它需要大量的失败经验来训练Agent。尽管存在使用物理Agent的方法,但使用物理Agent耗时且成本高昂。此外,在实际环境中失败可能是危险的情况下(例如自动驾驶、水下航行器),在物理环境中训练往往是不可行的。因此,使用模拟器来学习策略是一种常见的方法。
总之,无论是具身AIoT代理还是仿真与环境AIoT代理,AIoT是人工智能与现实世界交互的重要舞台,而AIoT代理则有望成为架起想象与现实之间桥梁的关键技术载体。
AIoT代理的应用
AIoT代理可能的应用场景包括:
智慧城市
AIoT 代理可能可以帮助改善城市基础设施、改善资源管理并提高居民的生活质量。具体应用包括智能交通管理、节能建筑、废物管理和公共安全系统。AIoT 代理可实现实时监控和控制、预测性维护和数据驱动的城市规划。
卫生保健
在医疗保健领域,AIoT代理可能将改变患者护理、诊断和运营效率。它们有助于患者远程监控、个性化治疗计划和疾病预防预测分析。支持AIoT的医疗设备可以收集和分析患者数据、提醒医疗保健提供者注意潜在问题,甚至可以自主管理治疗。
工业自动化
AIoT代理可以通过优化制造流程、减少停机时间和提高产品质量来改变工业自动化。它们能够实现预测性维护、设备实时监控和生产线自适应控制。AIoT代理还可以促进供应链优化并确保智能工厂的无缝运行。
智能家居
在智能家居领域,AIoT代理可提高舒适度、安全性和能源效率。它们集成了各种智能设备,例如恒温器、照明系统和安全摄像头,以创建一个有凝聚力的智能家居环境。AIoT代理可以了解用户偏好、自动执行例程并响应不断变化的条件,以改善整体生活体验。
不过,让AIoT代理从受限场景走向开放世界依然任重道远。如何增强它们面对全新环境时的适应力,是一个关键挑战。涌现式机制和持续学习能力或许是突破这一瓶颈的“钥匙”。
例如,AIoT代理可以通过对话交互从人类使用者那里获取环境信息以及行为反馈,或是利用其他IoT传感器的数据来校准其决策模型。
再如,赋予AIoT代理虚拟仿真环境中的自主训练能力,让它们在数字孪生世界中反复练习,也可以有效提升真实场景下的执行效果。
除了通用智能,面向行业应用的专用AIoT代理也大有可为。以工业机器人为例,AIoT代理可望在视觉引导、扭矩控制、智能装配等环节实现革命性突破。在自动驾驶领域,AIoT代理可利用多传感器融合感知技术,实时规划车辆轨迹,大幅提升行车的安全性和舒适度。而在智慧医疗方面,AIoT代理或将成为医生的得力助手,提供智能诊断、手术规划等服务,让每一位患者获得更精准周到的诊疗。
因此,AIoT代理有可能成为AI代理经济中的一股重要力量。
如上图所示,包括通用领域的AI代理、垂直行业的AI代理,以及面向消费者的AI代理。在后两个领域,垂直行业和消费者应用,AIoT代理都可以一展身手。
写在最后
毋庸置疑,AIoT代理的研发和落地应用仍有不少障碍需要跨越。其中,如何保障人机协作的安全性,避免智能代理做出违背人类意图、危及生命财产的决策,是当前业界高度关注的伦理问题。因此,加强跨学科合作,建立健全法律法规体系,是保障AIoT代理健康发展的必要工作。
参考资料:
Agent AI- Surveying the Horizons of Multimodal Interaction,作者:Zane Durante、Qiuyuan Huang、Li Fei-Fei等,来源:arXiv.org
Position Paper- Agent AI Towards a Holistic Intelligence,作者:Qiuyuan Huang、Naoki Wake、Li Fei-Fei等,来源:arXiv.org
An Interactive Agent Foundation Model,作者:Zane Durante、Bidipta Sarkar、Li Fei-Fei等,来源:arXiv.org
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
Continental 大陆集团:2024 未来出行趋势调研报告
埃森哲:未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学:2024 具身大模型关键技术与应用报告
爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
欧洲议会:2024 欧盟人工智能伦理指南:背景和实施
通往人工超智能的道路:超级对齐的全面综述
清华大学:理解世界还是预测未来?世界模型综合综述
Transformer 发明人最新论文:利用基础模型自动搜索人工生命
兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现
兰德公司:新兴技术领域的全球态势综述
前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)
罗戈研究:2024 决策智能:值得关注的决策革命研究报告
美国航空航天专家委员会:2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述:过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告 英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版
Linux 基金会 2024 去中心化与人工智能报告 英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版
Gartner2025 年重要战略技术趋势报告 英文版
Fastdata 极数 2024 全球人工智能简史
中电科:低空航行系统白皮书,拥抱低空经济
迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战
哈佛博士论文:构建深度学习的理论基础:实证研究方法
Science 论文:面对 “镜像生物” 的风险
镜面细菌技术报告:可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性
166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)
未来生命研究所:《2024 人工智能安全指数报告》
德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。
2024 世界智能产业大脑演化趋势报告(12 月上)公开版
联邦学习中的成员推断攻击与防御:综述
兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版
Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版
Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版
MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告
DeepMind:Gemini,一个高性能多模态模型家族分析报告
模仿、探索和自我提升:慢思维推理系统的复现报告
自我发现:大型语言模型自我组成推理结构
2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书
《自然杂志》2024 年 10 大科学人物推荐报告
量子位智库:2024 年度 AI 十大趋势报告
华为:鸿蒙 2030 愿景白皮书(更新版)
电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209
中国信通院《人工智能发展报告(2024 年)》
美国安全与新兴技术中心:《追踪美国人工智能并购案》报告
Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?
NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习
LangChain 人工智能代理(AI agent)现状报告
普华永道:2024 半导体行业状况报告发展趋势与驱动因素
觅途咨询:2024 全球人形机器人企业画像与能力评估报告
美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告
GWEC:2024 年全球风能报告英文版
Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析
2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告
世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度
兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告
经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告
医学应用中的可解释人工智能:综述
复旦最新《智能体模拟社会》综述
《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述
《基础研究,致命影响:军事人工智能研究资助》报告
欧洲科学的未来 - 100 亿地平线研究计划
Nature:欧盟正在形成一项科学大型计划
Nature 欧洲科学的未来
欧盟科学 —— 下一个 1000 亿欧元
欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划
DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告
兰德《人工智能和机器学习用于太空域感知》72 页报告
构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)
世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版
人工智能行业应用建设发展参考架构
波士顿咨询 2024 年欧洲天使投资状况报告 英文版
2024 美国制造业计划战略规划
【新书】大规模语言模型的隐私与安全
人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204
美国环保署 EPA2024 年版汽车趋势报告英文版
经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版
华为 2024 迈向智能世界系列工业网络全连接研究报告
华为迈向智能世界白皮书 2024 - 计算
华为迈向智能世界白皮书 2024 - 全光网络
华为迈向智能世界白皮书 2024 - 数据通信
华为迈向智能世界白皮书 2024 - 无线网络
安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版
2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告
《2024 年 AI 现状分析报告》2-1-3 页.zip
万物智能演化理论,智能科学基础理论的新探索 - newv2
世界经济论坛 智能时代的食物和水系统研究报告
生成式 AI 时代的深伪媒体生成与检测:综述与展望
科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版
计算机行业专题报告 AI 操作系统时代已至 - 241201
Nature 人工智能距离人类水平智能有多近?
Nature 开放的人工智能系统实际上是封闭的
斯坦福《统计学与信息论》讲义,668 页 pdf
国家信息中心华为城市一张网 2.0 研究报告 2024 年
国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版
大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战
毕马威 2024 年全球半导体行业展望报告
MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119
DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管
《人工智能和机器学习对网络安全的影响》最新 273 页
2024 量子计算与人工智能无声的革命报告
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版
理解世界还是预测未来?世界模型的综合综述
GoogleCloudCSA2024AI 与安全状况调研报告 英文版
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
上下滑动查看更多