A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities
目录
A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities
1. 简介
具身人工智能(Embodied AI,EmAI)正成为解决医疗场景中挑战的一种有前景的方法。通过将人工智能算法,尤其是多模态大语言模型(MLLMs)和世界模型,与机器人技术、机电一体化、人机交互以及传感器技术的创新相结合,EmAI 为人工智能算法配备了一个物理“身体”或有形媒介,从而实现与现实世界的直接交互。人工智能算法负责执行感知、动作控制、决策和记忆处理,确保 EmAI 系统的无缝运行。
2. 用于 EmAI 的基础 AI 技术
EmAI“大脑”的概述及功能。
-
(a) 人类大脑由负责不同功能的专门区域组成,例如:感知(如顶叶和枕叶)、动作控制(如小脑)、决策(如额叶)以及记忆(如海马体)。
-
(b) 同样,嵌入式人工智能系统的“大脑”被设计为模拟这些功能,由多模态感知、决策、动作控制和记忆的互联模块组成。这些组件协同工作,进行反馈交换并支持适应性行为。
高级规划(high-level planning)的三种主要方法,以外科机器人为例。
-
(a) 基于代码的 LLM 任务规划器选择并执行预先开发的机器人技能(例如牵引 / retraction、缝合 / suturing、切开 / incision)来进行操作。
-
(b) 基于语言的 LLM 任务规划器生成针对特定任务的详细指令(例如,识别切口 / identify the incision、插入针头 / insert needle、打结 / tie knots)以实现动态规划和执行。
-
(c) 端到端具身(End-to-end embodied)大型模型在单一模型中直接集成规划与执行功能。
3. 具身人工智能在医疗保健领域的应用
本节介绍了具身人工智能(EmAI)系统在以下四个关键领域中的医疗应用和产品:临床干预、日常护理与陪伴、基础设施支持,以及生物医学研究。
-
临床干预:涉及针对医疗状况的治疗或管理措施,EmAI 系统可以实现机器人辅助诊断 [77]、精准干预 [354] 和个性化术后(postoperative)康复 [355]。
-
日常护理与陪伴:依赖于人工智能驱动的机器人为老年人和残疾人士提供健康监测、移动辅助以及情感支持,从而提高生活质量并减轻护理人员的负担。
-
基础设施支持:EmAI 系统通过执行紧急响应、药品配送、环境消毒和病患运输等任务,提高了效率和安全性。
-
生物医学研究:EmAI 系统通过自动化实验、进行高通量分析以及解释复杂的生物数据,加速了科学发现的过程。
具身人工智能(Embodied AI)应用在临床干预的前干预(pre-intervention)、中干预(in-intervention)和后干预(post-intervention)阶段发挥着关键作用。这些系统通过执行诊断和计划等核心功能、支持外科和治疗程序以及促进康复和健康管理,提高了精确性。这些具身人工智能系统(EmAI)能够为其他人提供先前信息或执行后续任务。
3.1. 临床干预
EmAI 系统已广泛应用于临床干预,涵盖前干预(pre-intervention)、中干预(in-intervention)和后干预(post-intervention)阶段 [77], [354], [355]。以下将概述其主要作用,如上图所示。
3.1.1. 前干预阶段
近年来,与干预前诊断和评估相关的 EmAI 技术的进步正在塑造智能医院中 AI 与临床医生的新型合作模式。在这一背景下,EmAI 系统承担了多种角色,有效减轻了临床医生的工作负担并加速诊断流程。
虚拟分诊护士(Virtual triage nurse)。在现代智慧医疗系统中,基于 EmAI 的虚拟分诊护士正在取代人类护士,优化患者管理流程,将患者导向最合适的临床科室。这些 EmAI 系统可以分析患者报告的症状,并基于症状描述进行科室排序。
先进的分诊系统不仅能依赖症状排序,还整合了可穿戴健康数据和电子健康记录(EHR),以提供全面的健康状况评估 [362]–[364]。在紧急医疗环境中,这些系统甚至可以预测患者的结果并推荐干预方案,大幅缩短关键时刻的响应时间 [365]–[368]。随着医疗系统互联互通的日益增强,智能分诊系统正日益成为未来基础设施中高效的工具 [364], [369],实现初级护理、专科会诊和医院接收之间的无缝协调。
交互式医疗顾问(Interactive medical consultant)。近年来,一些基于大型语言模型(LLM)的聊天机器人(如 DISC-MedLLM [370]和 HealAI [371])被用于提供即时、可靠且上下文相关的医疗响应,帮助患者更好地理解其症状、治疗方案或后续护理 [372]–[373]。
这些系统不仅能够解释医疗状况、提供个性化建议 [374], [375],还可以解读放射学报告 [376]。通过弥合患者与复杂医学知识之间的鸿沟,交互式医疗聊天机器人不仅使患者能够做出明智的决策,还减轻了医护人员的工作负担 [377], [378]。随着 LLM 推理能力的提升 [379],这些系统正在成为以患者为中心的智慧医疗解决方案的重要组成部分。
此外,这些聊天机器人还能指导患者完成行政流程,如预约挂号 [380], [381] 或管理处方 [382], [383],从而缓解医务人员的压力 [384], [385]。凭借其全天候运行的能力,这些系统促进了医疗过程的可及性和信任度。
影像分析师(Imaging analyst)。机器人辅助医学影像是另一个典型领域,其不仅提高了诊断过程的准确性,还扩展了复杂解剖评估中的医学影像能力。已有许多研究集中于使用 AI 技术进行医学影像分析 [386]–[388],但要支持机器人手术和术前机器人诊断,还需要满足额外的要求,包括实时处理 [389]、三维空间理解 [390] 和安全合规性 [391],而不仅仅是高精度。
在超声成像、放射影像和内窥镜等医学影像技术中,EmAI通过不同方式增强了其能力。
-
对于 超声成像(ultrasonography),因其具有便携性、实时性、无创性,并依赖于诊断和操作的同步,EmAI 可以作为远程助手,帮助临床医生进行远程超声诊断 [105],并保护自己免受疫情风险 [392]。
-
对于 放射学(radiology),EmAI 还可以帮助临床医生在病变定位 [77],[393],[394]、手术规划 [395]–[397]、术中导航 [398],[399] 等方面提供更好的理解,分析来自 X 射线、计算机断层扫描(CT)和磁共振成像(MRI)的原始影像及附加报告。
-
对于 内窥镜检查(endoscopy),EmAI 能够实时处理内窥镜视频流,以识别异常情况 [400],[401],例如息肉或早期肿瘤,减少操作员疲劳,通过路径优化实现精准导航 [402],[403],并通过自适应、精确控制的机器人运动辅助执行如息肉切除等手术操作 [404],[405]。
1)远程超声(Remote ultrasound)。机器人超声的一个主要优势是其能够远程操作,促进偏远地区的医疗诊断,缩小城乡社区之间的医疗差距 [105]。
一种典型的远程超声诊断方法是基于图像的视觉伺服算法(visual servoing algorithms) [406]–[408],该方法可以实时远程调整探头的方向和位置,根据患者解剖结构的变化或诊断的操作需求,动态调整机器人臂的运动和力度 [109],[409],[410]。
此外,还提出了如医学影像配准(medical image registration)[411] 等互补方法,以辅助机器人超声扫描,提升定位精度 [106],[412],进行运动补偿 [413],[414],并实现实时监控 [102],[415]。
2)防疫卫士(Guardian against epidemics)。机器人医学影像系统的另一个潜在应用是利用其远程操作特性作为保护屏障,物理上将医疗工作者与感染患者隔离开来 [392]。这种方法有助于解决广泛关注的感染暴露问题,让临床医生能够专注于提供高质量的护理,而不必妥协其自身或患者的安全。
远程操作的机器人肺部超声系统已经引起了关注 [416],[417],该系统能够远程评估肺部状况,有效减少病毒传播风险。类似地,AI-Corona(放射科助理框架)通过胸部 CT 扫描进行 COVID-19 诊断,实现更快速、精确的评估,同时最小化患者与临床医生的接触 [418]。这些进展提高了疫情期间医疗服务的效率和安全性。
3)放射学助手(Radiology assistant)。介入放射学(Interventional Radiology,IR) [419] 聚焦于使用影像引导的微创技术执行诊断和治疗手术。EmAI 的整合正在进一步推进介入放射学,通过提高程序的精确性、安全性以及操作者的控制能力,促进复杂医学干预的实施。
例如,机器人系统利用 CT 影像来提高肺部结节等病变区域的定位精度 [107],并在术前诊断和术中进行胸腰椎钉螺钉的导航放置 [420]。类似地,利用 X 射线影像的机器人系统增强了心脏介入手术,能够精确导航导管进行血管内导管插入 [421],[422]。MRI 引导的机器人干预有助于肿瘤消融等手术中的切除范围定位,提供实时组织变化的更优可视化,保护关键结构 [423]–[425]。
内窥镜导航(Endoscopic navigator)。EmAI 在内窥镜手术中的整合显著提高了微创诊断和治疗的精度和效率,为设备定位和病变靶向提供实时指导 [426],[427]。
例如,基于 AI 的 3D 成像技术能够实时重建解剖结构,使临床医生能够更精确地导航复杂区域,如胃肠道和呼吸道 [428]。机器人辅助内窥镜进一步利用自动化控制系统,动态适应患者特定的解剖结构和手术需求 [429],[430],从而提高任务的精度,如活检、息肉切除及其他靶向干预。此外,这些系统还融入了预测性分析,优化手术路径,减少组织损伤,简化手术流程,提高安全性和操作员信心 [431],[432]。
总结来说,完全自主的超声系统 [110]、以人为本的放射学助手 [433] 和灵活的机器人内窥镜系统 [434],能够在最少人工干预的情况下调整诊断检查,并进行导航。这些已经被开发出来,且达到了更高水平的智能化和自主性。与人类主导的检查相比,它们能够优化工作流程,提高患者护理质量,并为所有参与手术过程的人员提供更安全的环境。此外,这些系统还可以作为更全面的 EmAI 系统(如手术机器人)中的一个模块,展示其扩展应用的机会。
3.1.2. 中干预阶段
EmAI 系统在介入干预中阶段的持续整合,催生了各个领域的进展,包括外科手术实践、心理健康干预等。在这些领域中,外科手术实践已成为迄今为止研究和发展的最广泛应用。这些系统自动化了特定的手术任务,并提供关键的术中反馈,从而提高了手术执行的质量 [435]–[437],并为外科培训提供分析支持 [438]–[440]。一个典型的用于自动化手术的分层EmAI系统如图 6 所示。
传统的机器人手术主要集中在开发任务特定的手术操作策略,如缝合 [442]–[444]、组织操作 [445],[446] 和纱布切割 [447]。随着 LLM(大型语言模型)和 VLA(视觉语言模型)技术的快速发展,手术机器人的智能和多功能性得到了进一步提升。
手术规划师(Surgical planner)。在传统的临床环境中,外科医生通常在手术初期进行详细的手术规划。借助 EmAI,这一过程可以自动化地进行优化。
新兴的视觉-语言-行动模型(Vision-Language-Action Model,VLA)模型已经应用于这一领域,生成可执行的手术计划 [448]。这些模型允许机器人理解视觉提示和自然语言指令,从而实现更直观、灵活的任务执行 [123],[449]。此外,一些 VLA 模型通过有效的模仿学习,借助视觉演示学习复杂的操作动作。通过解释人类演示视频,EmAI 系统能够识别精细的视觉概念,包括工具、动词和目标 [450],并为手术环境中的机器人系统创建可执行的任务计划 [451]。
另外,基于视觉语言模型(VLMs)[452] 的手术规划师,如 SurgicalGPT [453] 和 LLaVA-Surg [454],通过在手术过程中提供协助和评估,能同时在实际操作和教育方面带来帮助。通过将复杂的手术分解为离散的手术动作,量化手术表现,EmAI 系统能够统计分析不同手术动作对患者术后结果的影响,并预测术后结果 [455]。类似的研究 [456] 也表明,开发精确的计算机辅助手术规划有助于提高患者的手术结果。人们建议为达芬奇系统(da Vinci system) [457] 配备基于 AI 的感知能力,可以增强其理解手术场景、规划手术和执行更佳操作的能力 [436]。
在之前的讨论中,我们集中讨论了如何将外科技能规划为行动级别的细节。然而,在当代医疗环境中,存在着复杂的多阶段手术,长期规划将复杂手术分为多个阶段进行执行。这些手术通常涉及外科团队之间复杂的协调,长时间内对患者健康的精确管理,并需要适应术中不可预见的变化。与传统的手术规划方法相比,EmAI 通过整合各种系统模块,如诊断工具 [395],[396],[458],实时监控系统 [459]–[461],以及用于长期患者健康管理的预测分析 [22],[23],可以增强复杂手术的多阶段规划。这些 AI 驱动的模块有助于根据患者在连续手术中的健康状况评估,动态调整临床干预时间表和策略 [462],[463]。尽管单个 EmAI 模块已取得显著进展,但将它们无缝整合为一个具有全球认知的完整手术规划系统,仍然是未来创新的关键重点。
手术操作员(Surgical operator)。熟练的操作员是每个手术过程的核心,精确性和及时干预至关重要。由于手术的复杂性和专家操作员的有限性,常常会出现瓶颈,影响患者护理。为了解决这一问题,机器人手术成为了一种有前景的趋势,提供了增强的精度、灵活性和最小侵入性的常见手术方法,从而改善患者的手术结果 [464]。在医疗领域,专用的机器人通常更加实用和可靠,并已在多种环境中广泛研究,证明了其对临床治疗的整体益处 [465]。例如,在腹腔镜手术中,已经有机器人系统在人工监督下自动执行肠道吻合术 [466] 和直肠癌切除术 [467]。在眼科微创手术中,已经开发了综合 EmAI 系统 [468],[469],集成了实时手术物体跟踪、分割和模型预测控制,用于在微创手术环境中进行术中导航,精确度至关重要。
对于一般外科技能,机器人技术的潜力也得到了广泛展示。
-
通过深度学习和主动感知策略驱动的机器人,通过 HOUSTON 算法 [470],已被训练使用针头,能够定位、抓取并交接未经修改的手术针头以完成精确操作。
-
通过 SmartArm 机器人系统,在新生儿胸部手术中证明了其良好的缝合技能,这需要稳定而精细的控制系统 [435]。类似地,在缝线检测和交互感知方面,提出了一种实时机器人方法 [437],使用自我监督学习框架自动缩短手术缝合线的尾部。
在复杂的手术场景中,多个 EmAI 子系统可能协作整合多源感知,支持机器人手术,这需要一个强大的控制系统来指导和协调它们各自的感知-认知-沟通-行动循环 [471]。除了视觉感知,其他模式包括运动学数据 [472]、音频数据 [473]、语言指令 [102] 和触觉感知 [474],也被整合进来,形成对现实世界手术环境的全面视图。
智能外科医生-机器人接口(Intelligent surgeon-robot interface)。直观的用户界面和先进的响应系统可以显著弥合外科医生与机器人工具之间的差距,减少外科医生与机器人协作的难度,并作为“翻译”促进沟通与控制。
两种直观的控制和感官反馈方法被探索。
-
一种新型的语音控制接口 [475],利用 Whisper 语音识别技术使外科医生能够通过语音命令控制机器人。
-
感官手套 [476] 能够将自然手部动作转化为对机器人工具的控制,努力提供在手术过程中至关重要但往往缺失的触觉反馈。
此外,人类参与学习系统 [477],[478] 通过人类互动来指导和完善 AI 模型的学习过程。这些方法确保通过融合人类的专业知识和反馈,EmAI 不断改进,以做出更好的决策,尤其在知识密集的外科环境中特别有效且直观。
一种互动系统,允许外科医生在手术过程中指导机器人学习过程,通过减少错误率使其更可靠,同时也较少完全自动化。
手术导航仪(Surgical navigator)。术中导航系统通过提高工具定位的精确度、优化手术路径、提供实时反馈以及减少手术风险,显著增强了手术过程。这些系统使外科医生能够以更高的准确性和控制力执行复杂手术,最小化对周围健康组织的损伤,并改善整体手术结果。新兴的视觉语言导航(Visual language navigation,VLN)技术 [479],[480] 进一步使机器人能够适应多种手术环境,响应语音命令并实现自主导航。研究人员已经开发出集成空间意识(spatial awareness)和任务特定知识的模型,以增强机器人对自然语言指令的响应能力 [481],[482]。
手术导航仪的两个核心组件,一个是理解和定位视觉场景的能力,另一个是面向安全的路径规划和障碍物避免。手术环境拥挤,任务要求高精度,因此 AI 必须正确识别解剖标志、手术工具和其他视觉线索。先进的 VLN 模型结合 ViT 和 LLM,使机器人能够从视觉和文本输入中实现情境理解 [123]。此外,导航系统在手术环境中必须优先考虑安全。AI 驱动的机器人需要在有限的空间内导航,同时避免障碍物,如手术器械、医护人员或敏感的患者组织。专门为手术领域定制的路径规划算法结合了安全约束和预测模型,能够预判潜在的障碍物[483],[484]。诸如深度感知和 3D 场景重建等技术被用来增强空间意识 [485]–[487],使机器人能够自主导航,同时确保它们保持在安全的操作范围内。
EmAI 不仅帮助执行手术任务,还通过精确反馈和综合分析增强术中的决策。
实时手术顾问(Real-time operation consultant)。现代手术环境通常涉及处理大量实时信息。复杂的手术过程会生成大量的视觉和情境数据,如实时视频流、腹腔镜图像和机器人手术视频,这些信息必须在高压环境下快速解释。与此同时,即使是经验丰富的外科医生,也可能遇到超出其专业范围的情况,仅依赖人类判断可能会导致效率低下或错误。为了弥补这些空白,能够解读手术背景并提供精准及时答案的 AI 问答方法成为一项重要的创新。一些能够基于手术环境的视觉数据回答问题的 EmAI 系统已经出现 [488]–[490]。这些功能通常通过 VQA 和图像标注方法实现,最近在手术特定的 VQA 和图像标注任务中采用新颖的视觉语言预训练(VLP)技术 [449],[454],[491]–[495],进一步增强了 EmAI 系统的能力,其中预训练的多模态模型经过手术特定的 VQA 数据集微调。
手术操作教练(Surgical operation coach)。手术过程的复杂性日益增加,加上经验丰富的导师对于年轻学员的有限可用性,给为新手外科医生提供充分教育带来了重大挑战。这一培训差距加剧了全球技术熟练外科专业人员的短缺。集成了先进 EmAI 算法的机器人手术操作教练,为这一紧迫问题提供了一个有前景的解决方案。研究人员已经开发出能够实时识别和预测手术手势和轨迹的 EmAI 模型 [496]–[500]。为了全面理解手术环境,进行手术活动的多粒度分析至关重要。这包括长期任务,如识别手术阶段和步骤,以及短期任务,如分割手术工具和检测原子视觉动作 [501]。通过这些进展,手术操作教练可以分析复杂的手术活动序列,提供手术技能的客观评估 [502]–[507]。这些评估提供建设性反馈,使学员能够完善技术并加速学习曲线。
患者数字伴生(Patient digital twin)。患者数字伴生代表了患者生物系统或其部分(如解剖学)的详细、动态模型,利用综合且准确的医疗数据,如影像学研究、生理测量和诊断结果创建 [114]。它通常与先进的可视化设备(如 VR/AR)结合使用,提供互动和观察,外科医生可以基于这些数据规划、模拟和优化手术路径 [508],[509]。基于 AI 的数字伴生创建技术有助于识别手术模式 [438]、预测并发症或手术结果 [509],以及生成医疗报告 [510],[511]。该技术常被用来加速新手外科医生的学习曲线,帮助他们熟悉解剖结构、手术过程背景和疾病进展 [512]–[516]。此外,多个下游应用从手术数字化过程中受益 [517]。临床医生可以使用数字化手术平台在不依赖真实解剖模型的情况下练习手术技能和探索人体解剖,克服高成本和稀缺培训样本的限制。它还为机器人提供了一个数字化且准确的平台进行训练,提高了安全性和可靠性,在实际手术过程中部署之前进行测试 [519]。另一种方法涉及合成逼真的手术图像 [520] 和视频 [521],有助于 EmAI 系统的训练过程,缓解了获取手术数据的高成本和伦理问题。
EmAI 系统在手术操作及相关支持角色中的发展正在通过提高效率和精度重塑外科实践。这些系统提供了宝贵的产品和分析,对于当前的手术过程和未来外科医生的培训至关重要。然而,基于 EmAI 的干预不仅限于手术应用,还扩展到介入领域,包括心理健康治疗。
心理健康治疗师(Mental healer)。EmAI 驱动的系统利用先进的情感识别、语音分析和行为模式检测,实时评估心理健康状况 [522],[523]。由 AI 驱动的虚拟治疗师提供个性化的认知行为疗法(cognitive behavioral therapy,CBT)、正念训练(mindfulness training)和情感咨询,使心理健康支持更易获得,尤其是对于服务不足的群体 [524]–[528]。除了数字治疗平台外,EmAI 还被集成到沉浸式环境中,如用于恐惧症或创伤后应激障碍(PTSD)的基于 VR 的暴露疗法(exposure therapy)[529]–[533],根据生理反馈如心率或眼动追踪动态调整治疗。EmAI 还通过可穿戴技术增强长期监测,检测心理健康下降的早期预警信号,并实现及时干预 [534]–[537],创造出一个无缝的连续、自适应和个性化的心理健康护理生态系统。
3.1.3. 后干预阶段
术后康复领域对于提升患者在手术干预或疾病治疗后的恢复与生活质量至关重要。传统方法虽然有效,但通常需要大量的人力资源,且无法始终提供个性化的治疗方案。情感人工智能(EmAI)为康复护理提供了一种有前景的解决方案,能够实现持续、自适应、以患者为中心的护理 [538]。
智能外骨骼(Intelligent exoskeleton)。新兴的 EmAI 系统 [539][540] 被设计用于帮助患者在身体康复过程中恢复移动能力和力量,提供引导性锻炼、精准的运动辅助以及针对行动障碍患者的自适应反馈。例如,外骨骼机器人可用于帮助患者进行步态训练 [541][542],手部康复机器人则有助于恢复手部功能 [543]。上肢康复机器人专门设计用于支持患者在日常活动中使用手臂,从而促进神经可塑性和功能恢复 [544]–[546]。这些技术对中风或偏瘫患者以及脊髓损伤者尤为有益,为他们提供了更多的独立性和更高的生活质量 [547]。这些应用通常基于精细控制方法和互动策略开发 [548][549]。
定制化康复教练(Customized recovery coach)。针对躯干康复机器人的平衡训练,EmAI 系统 [550][551] 展现了实时捕捉动作和评估患者状况的能力。它们能够根据每位患者的能力和需求调整控制器并优化训练强度,从而提升个性化康复效果。此外,具备持续学习能力的 EmAI 系统可以根据患者的过往行为和反应进行自我进化,提高对患者特定治疗需求的适应性和响应性 [552][553]。这些系统还能提供并更新安全、个性化的康复训练方案,特别是在预测关键康复指标 [554]、更准确地评估患者恢复情况以及根据实时运动表现和生理反馈 [459]–[461] 推荐优化的术后康复计划方面表现出色 [555][556]。
药物控制器(Medication controller)。智能药物递送系统与实时监控设备集成,可根据生理反馈(如血糖水平、血压或神经活动)动态调整药物剂量 [557][558]。配备 EmAI 的机器人系统已被用于精准施行复杂治疗,例如化疗或胰岛素递送,从而最大限度减少错误并改善患者治疗效果 [559]–[562]。此外,基于 AI 的药物依从性工具(如智能药丸分发器和跟踪应用)确保患者按处方服药,降低漏服或用药过量的风险 [563]–[566]。通过预测分析,EmAI 系统还可实时识别潜在的药物不良相互作用或推荐调整,提供安全、高效且个性化的药理学护理。
健康监测穿戴设备(Health monitoring wearable)。智能可穿戴设备日益与 EmAI 系统集成,利用 MLLM 的能力 [567],实现对心率、血氧饱和度和皮肤电活动等重要健康指标的实时跟踪 [568]–[570]。这些设备能够动态适应患者独特的生理特征,提供定制化的健康洞察与警报 [571]。通过持续学习算法,EmAI 系统不断优化预测患者特定健康事件的能力,例如检测感染早期迹象、帕金森病或心血管问题 [572][573]。此外,这些可穿戴设备可与医疗提供者通信,确保及时干预,提升患者安全性和康复效果 [574]。利用实时数据与 EmAI,这些设备不仅监测,还能主动管理术后护理,优化康复进程。
认知康复工具(Cognitive rehabilitation tool)。在术后认知恢复领域,配备 EmAI 的工具能够根据患者表现和进展的实时分析定制认知训练 [574][575]。通过整合传感器与交互式软件,EmAI系统提供了一个响应平台,根据认知负荷与患者能力调整任务 [576]。这种持续适应性有助于设计更有效的康复方案,能够更精准地应对特定认知缺陷 [577]。此外,EmAI 工具还能预测和监测认知恢复轨迹,为进一步调整治疗提供洞察 [578]。这些工具不仅支持更快速的认知康复,还确保治疗过程具有吸引力并符合患者的特定治疗需求。
神经假肢(Neural prosthetics)。前沿研究还探索了脑机接口(BCIs)的整合,以增强运动想象(motor imagery,MI)训练与康复。在 MI 训练中,患者想象特定动作,BCI 通过信号分析(如 EEG [579] 或功能性脑连接性 [580])将这些意图转化为虚拟环境中的动作 [581] 或外部机器人设备的动作 [582]。这种方法被证明能促进神经重塑并增强中风患者的运动功能恢复。
3.2. 日常护理与陪伴
3.2.1. 辅助机器人
情感人工智能(EmAI)在医疗保健领域的整合促成了辅助机器人的发展,这些机器人可以提升患者的日常护理和支持水平。本节聚焦于社交辅助、日常生活辅助和行动辅助三个主要应用领域。
社交向导(Social guide)。在现代社会,自闭症谱系障碍(ASD)、双相情感障碍或其他社交挑战的个体在获取足够的社交支持方面常面临显著障碍。EmAI系统,特别是由大型语言模型(LLMs)驱动的技术进步,促进了旨在满足这些需求的创新解决方案的开发 [583][584]。NAO 机器人和 QT 机器人已被用于提高面部识别能力和增强眼神接触,作为自闭症儿童的治疗中介,帮助他们学习与他人互动 [585]–[588]。通过结构化互动,儿童可以练习社交技能,如模仿、轮流、互动和共情 [589]。研究表明,自闭症儿童通常对机器人辅助治疗反应积极,在治疗过程中表现出更高的参与度和较低的焦虑水平 [590]–[592]。
此外,ZORA 机器人等 EmAI 系统 [593]–[595] 已帮助重度身体残疾儿童实现治疗和教育目标,同时优化痴呆症患者的沟通能力。我们提出了一个支持社交障碍儿童的 EmAI 系统流程,如图 7 所示。
日常助手(Daily helper)。对于面临独立生活挑战的患者,EmAI 的进步推动了各种辅助机器人的开发,这些机器人旨在支持基本的日常活动。这些机器人可以协助完成特定任务,如进食、穿衣、个人卫生和药物管理。例如,进食机器人已被开发用于帮助重度残疾患者自主进食 [597][598]。这些系统结合红外传感器,根据用户的体型和头部位置实现精准的勺子控制,并自动调整 [599]–[601]。这种适应性使用户能够自主选择食物,改善他们的用餐体验和整体生活质量。此外,像 ARI 这样的机器人 [583][584] 被设计用于康复项目。这些机器人能够演示锻炼动作、提供实时指导,并给予鼓励,从而促进患者更积极地参与并坚持治疗方案 [602]。这种整体方法不仅支持身体恢复,还增强了患者的情感和社交福祉,使这些辅助技术成为康复和独立生活中不可或缺的工具。
行动助理(Locomotion aide)。EmAI 在身体残疾人士的移动性和康复辅助方面取得了显著进展,提供了创新的解决方案来恢复功能并支持个体的康复。例如,由 Ekso Bionics 开发的外骨骼技术帮助脊髓损伤患者站立和行走,促进康复并改善移动能力 [604]。类似地,ReWalk [605] 使瘫痪人士能够行走和爬楼梯,有效弥补身体缺陷并带来积极的治疗效果。
AI 驱动的轮椅展示了 EmAI 如何增强移动性。它们利用 AI 算法预测动作,协助重度运动或认知障碍患者 [606][607]。这些系统通过分析过往动作、检测障碍物,并实现安全的实时导航,帮助用户直观地在复杂环境中移动 [608][609]。此外,基于 EmAI 的轮椅以其成本效益著称,通过优化控制参数来降低能耗并延长电池寿命 [610]。
移动平衡辅助机器人正在开发中,以帮助个体在日常活动中保持平衡并防止跌倒 [611]。例如,SoloWalk [612] 等机器人在患者行走时提供重量支持,从而进一步促进康复过程。脑机接口控制的机器人,包括安装在轮椅上的机械臂 [613] 和机器人假肢,也在增强瘫痪或肢体缺失患者的功能方面发挥着重要作用,使他们能够执行操作任务并重获独立性。
3.2.2 伴侣机器人
EmAI 系统驱动的伴侣机器人在以下几个关键场景中支持医疗保健:心理健康的情感支持 [92][111][112][614]、促进儿童发展的健康支持 [615]–[621] 和为老年护理提供疾病监测支持 [622]–[626]。在心理健康方面,这些机器人通过与用户进行对话、提供共情和培养陪伴感来提供情感支持,这对感到孤独或焦虑的人群特别有益。在儿童护理中,这些机器人通过教育活动、社交互动和游戏吸引年轻用户,在一个安全、受监控的环境中支持认知和社交发展。在老年人和慢性病护理中,伴侣机器人协助完成日常活动、提醒用药并进行身体监测,帮助提高生活质量并使老年人能够保持独立性。此外,它们还可以检测健康状况的变化,从而实现及时干预。通过这些应用,伴侣机器人增强了心理和身体健康,对个体护理和更广泛的支持网络作出了有意义的贡献。
情感伴侣(Emotional companion)。用于情感支持(心理健康)的伴侣机器人通常通过两种主要途径运行:虚拟 EmAI agents [627] 和用于临床的先进 AI 机器人创新 [628]。虚拟具身代理(Virtually embodied agents),如聊天机器人或对话系统,通过实时的共情对话,为用户提供可访问的情感支持,帮助缓解孤独、焦虑或压力 [92][111]。这些虚拟伴侣易于访问,为寻求支持的人提供了低门槛的互动。
在临床环境中,AI 集成的物理机器人将心理健康支持提升到一个新高度,通过面对面与用户互动,识别身体和情感线索,并调整响应以提供个性化的安慰、社交参与和治疗活动 [629]。虚拟与物理 AI 的结合形成了全面的支持系统,同时满足即时的对话需求,并在临床环境中提供深入的情感支持。
除了虚拟治疗应用之外,临床医生和研究人员正致力于将 AI 机器人创新直接引入临床。例如,智能动物型机器人如 Paro(一个毛绒海豹),越来越多地被用于协助痴呆症患者 [630][631]。与 Paro 类似,较大的 eBear 属于“伴侣机器人”类别,旨在作为家庭健康助手,通过交互式“对话”响应语音和动作并提供陪伴。这些机器人旨在通过舒适的互动帮助老年人、孤立个体或抑郁患者。多项研究探讨了此类机器人在减轻压力、孤独和激动情绪以及改善情绪和社交联系方面的作用 [632]。
儿童健康守护者(Kid health guardian)。由 AI 驱动的机器人和可穿戴设备能够帮助诊断发育障碍、监测生命体征,并通过互动练习吸引儿童 [621][633][634]。通过将 AI 用于物理互动形式,具身系统可以实时调整以响应儿童的反应,提供传统方法可能缺乏的自适应支持。在治疗环境中,社交机器人通过受控、重复的互动帮助自闭症儿童促进社交参与和增强沟通能力 [615]。此外,AI 赋能的康复和物理治疗工具提供了针对性的练习,并通过有趣的反馈支持有运动技能挑战的儿童 [635]。总体而言,EmAI 通过提供个性化、互动性强且高效的治疗,支持了儿科护理的身体和认知方面。
AI 机器人为参与自闭症儿童提供了宝贵的机会,提供了一种独特的社交技能发展方法 [620]。研究表明,自闭症儿童通常对机器人反应良好,即使他们难以与他人互动 [615]。例如,Kaspar 机器人已显示出在教育和治疗环境中的整合潜力 [618],有助于改善社交技能 [619]。早期研究表明,自闭症儿童在与机器人伙伴互动时比与人类治疗师互动时表现出更多的积极社交行为,并在会话中展现出更自发的语言使用 [616]。
社交机器人的开发还为支持糖尿病儿童提供了一种有前景的方法 [617]。这种机器人不仅协助健康管理任务,如提醒用户检查血糖水平和指导胰岛素注射,还通过友好的人类化互动提供情感支持。在设计中结合了儿童和临床医生的意见,该机器人促进了社交参与,有助于减少糖尿病管理的焦虑并改善健康习惯的遵从性。早期发现表明,儿童对这种机器人反应积极,表明该机器人有效地将实用的健康辅助与陪伴功能结合在一起。
老年健康护工(Elderly health caregiver)。随着老龄化的加剧,老年人面临着诸多挑战,包括身体健康的下降和慢性疾病风险的增加。诸如心血管疾病、糖尿病和关节炎等疾病不仅降低了他们的生活质量,还对医疗系统和护理人员造成了重大压力。这些长期存在的健康问题常常导致行动能力下降、社会隔离,以及对日常活动的依赖性,从而进一步加剧了他们的脆弱性。
为应对这些挑战,探索创新解决方案尤为重要。基于情感人工智能(EmAI)的老年护理机器人,凭借先进的长期学习能力,可以随时间推移适应个体的健康轨迹、习惯和偏好。这种长期学习能力可能包括强化学习(RL)以实现个性化护理优化,或元学习(meta-learning)以快速适应,以及疾病特异性预测建模的应用,以满足老年用户需求的动态变化。
EmAI 已被证明能够提供实用和情感支持,从而改善老年患者的健康状况。具备 EmAI 功能的机器人通过提高行动能力、进行生理评估和监测生命体征,帮助老年人完成日常活动、康复锻炼以及独立导航 [634]。研究表明,老年患者在伴侣机器人陪伴下感到更安全、更舒适,因为这些机器人能够在不干扰个人空间或自主性的情况下对他们进行持续监测 [636]。通过结合 EmAI 监测系统,老年伴侣机器人为支持患者健康提供了一种可靠且非侵入性的方式,使其成为家庭护理中的宝贵资产。
此外,这些由人工智能驱动的机器人提高了痴呆患者的护理质量,通过结构化活动和持续互动提供认知参与和症状管理,这是传统护理方法可能无法提供的。大多数与社交机器人 Sophie 和 Jack 互动的痴呆老年人都经历了非常积极的体验 [626]。这些机器人具备类人化的沟通能力、情感表达和动作,并能够播放歌曲、进行游戏和讲故事。研究表明,它们可以提供感官丰富体验,并促进痴呆患者的社会参与。例如,许多参与者受到激励与 Jack 一起玩宾果游戏,并积极参与其他集体活动,突出了这些机器人在促进社会和认知参与方面的影响 [625]。
情感人工智能的另一个关键角色是提供陪伴,减轻孤独感并促进老年患者的情感健康,这对心理健康和生活质量至关重要 [637]。研究 [638]–[640] 表明,与 Paro 或 AIBO 机器人互动的参与者在试验期间,其收缩压和舒张压以及孤独感显著降低,而对照组则没有类似的变化 [641]。总体而言,EmAI 正成为老年护理中的重要工具,可满足复杂的身体、认知和情感需求。
3.3. 基础设施支持
3.3.1. 救援机器人
由情感人工智能(EmAI)驱动的机器人正日益被开发为人类助手或在各种高风险环境中的替代者。在救援场景中,由于它们能够在危险环境和紧急情况下安全运行,其潜力得到了广泛探索。在自然灾害或危及生命的紧急情况下,搜索和救援机器人旨在为受害者提供快速救助和紧急健康服务。借助包括 MLLM 和 VLM 在内的最新人工智能方法的进步,配备 EmAI 的机器人能够在地震等灾害多发地区高效定位并协助幸存者,同时支持救援行动 [642]–[645]。EmAI救援机器人的典型工作流程如图 8 所示。
生命侦测(Life scout)。技术进步已经促成了先进的幸存者检测系统,这些系统通过集成传感器和无人机可以在紧急情况下快速识别和定位幸存者 [647], [648]。这些系统利用热成像和 RGB 图像以及 AI 实时分析数据,高效地定位幸存者 [649], [650]。人工智能和机器人学的最新发展使得系统能够快速分析大量数据,从而使实时幸存者检测更加准确可靠 [651]。通过无线传感器网络集成视觉和音频信号,现有的 EmAI 系统 [649], [652] 能够检测幸存者位置,将位置信息传输到中央云服务器,并评估环境风险水平,以协助救援任务规划。
敏捷行走(Agile walker)。AI 驱动的移动系统增强了救援机器人在危险和狭窄环境中的生命搜索能力。在此类环境中,高度灵活性对于穿越崎岖地形、清除障碍以及从受影响区域进行实时视频传输至关重要 [653], [654]。当前的进展旨在通过配备 AI 驱动的障碍物检测和避障能力使这些机器人实现自主导航 [655]–[657]。特别是配备高级 EmAI 系统的四足机器人展示了在复杂地形中穿越粗糙表面、碎片以及不同摩擦区域的能力,从而具有高度适应性 [658]。最近采用强化学习增强框架进一步提升了机器人在盲视环境中的适应性、高速运动、动态应对障碍以及在不确定条件下的适应性改进 [659], [660]。
救援搬运(Rescue carrier)。目前,大多数救援机器人仍局限于数据检索和收集任务 [661]–[664]。在下一个发展阶段,整合基于先进 EmAI 系统(如 VLA 模型)的多自由度操控器至关重要,以进一步扩展救援机器人的功能,包括抓取、搬运物体以及提供医疗设备支持等能力。配备这些医疗支持工具后,救援机器人现在可以直接为受害者提供现场帮助 [665]。
3.3.2. 送货机器人
送货机器人如今被广泛应用于医疗环境中,执行以前由人类负责的院内配送任务,从而克服了与时间限制和人力资源不足相关的问题。通过 EmAI 系统,它们能够更高效地递送必需品,如样本、餐食、药物和医疗用品 [666]–[668],从而支持医疗机构优化运营并减轻工作人员的负担 [669]。这些机器人能够独立导航复杂环境,适应动态条件,并执行障碍物避让 [670]、语音交互 [671] 和精准的患者面部识别 [672] 等功能。在 COVID-19 疫情期间,这些机器人还被部署用于药物和食品的配送 [673], [674],从而减少了人际接触并降低病毒传播的风险。
3.3.3. 消毒机器人
疫情还显著增加了服务机器人的需求,用以替代被污染区域的人力劳动,特别是在消毒任务中。这使得医院中高效、快速的消毒变得至关重要,推动了消毒机器人相关研究的发展。通过将移动机器人平台与高级消毒技术(如过氧化氢雾化 [675] 和 UVC 设备 [676], [677])相结合,并配备 EmAI 导航系统,这些机器人能够在复杂的室内环境中实现自动清洁。它们被设计为通过结合吸尘器、消毒剂和紫外线消毒方法,消毒地板表面和空气中的有害病原体 [678]–[681]。通过保持严格的卫生标准,这些机器人显著降低了医疗环境中的交叉感染风险。
3.4. 生物医学研究
EmAI 在生物医学和医疗研究中也显示出巨大的潜力 [682]。它能够协同结合人类的创造力和专业知识,以及 AI 在处理庞大生物医学数据集、导航复杂假设空间和执行重复实验方面的能力。EmAI 系统在生物医学研究中的核心功能包括规划发现工作流程、进行自我评估以识别和解决知识空白,并使用结构化记忆进行持续学习 [27],[80]。
自动化实验室技术员(Automated lab technician)。实验是生物医学研究中的关键部分。由 EmAI 驱动的机器人自动化了重复任务,提高了工作效率,使研究人员能够专注于更复杂的分析任务。科学家们已经创建了能够自主进行复杂化学反应和分析的机器人化学家 [683],[684]。这些机器人系统将 EmAI 应用于实验室自动化,使它们能够设计实验 [685]–[687]、执行程序 [688],[689],并解释结果 [690]–[692],无需人工干预。例如,某个平台利用基于 AI 的合成规划,经过数百万次反应的训练,提出合成路线,之后由专家化学家进行微调并在机器人流动系统上执行 [693]。这一设置使得可以大规模、可重复地合成各种化合物,如药物。另一位 AI 驱动的机器人化学家也展示了它从合成规划到在批量反应器中执行实验的能力 [694]。在光催化氢气生产的材料科学领域,该机器人在实验室环境中自主运行,使用贝叶斯优化方法导航一个包含十个变量的复杂实验空间,在八天内执行了 688 次实验 [683]。这个工作流程在图 9 中进行了说明,展示了化学实验的常规自动化过程。总结来说,EmAI 能够将精确操作与自主决策相结合,使其能够持续运行实验,无需人工干预。这些实验设置最小化了人为偏差,加速了发现和生产,并能够探索广泛的实验空间。
药物发现(Pioneer in drug discovery)。传统的药物发现过程通常耗时且成本高昂,对制药研究和开发提出了重大挑战。然而,将 EmAI 整合到药物发现过程中,不仅缩短了整体开发时间线,还减少了相关开销。
由 AI 驱动的机器人系统能够快速筛选庞大的化学库,比手动方法更高效地识别潜在药物候选物 [695]。在高通量筛选(HTS)系统中,物理组件主要负责自动化过程,如样品处理、反应设置和数据采集,通过机器人技术和专门的软件进行仪器控制 [696]。通过使用液体处理设备、机器人技术、探测器和专门软件,研究人员还在 HTS 过程中实现了自动化和高效率 [697],快速评估大量化合物对特定生物靶标的活性。
此外,在生物序列的分析和预测中,如 DNA、RNA 或蛋白质结构,LLM 和其他方法被应用于解读生物序列中的模式 [698]。通过将核苷酸和氨基酸视为单词,它们可以预测生物结构和功能,从而有助于发现疾病生物标志物和药物靶点 [699]–[701]。同样,AI 模型通过增强各种过程,如毒性预测、药物释放监测、定量结构-活性关系(QSAR)分析、药物再定位、理化性质预测等,革新了药物发现 [702]。
通过利用强化学习(RL)算法,AI 驱动的药物发现增强了虚拟筛选和从头药物设计。虚拟筛选 [703]–[705] 使用 RL 从现有的化合物数据库中识别潜在药物候选物,而从头设计 [706]–[709] 则生成具有优化生物活性和性质的新分子。通过将 RL 与主动学习和预测建模相结合,这些系统增强了在广泛化学空间中的探索,减少了实验成本并缩短了从击中到领先的时间线 [710],[711]。
虽然这些系统尚未完全是 EmAI 系统,但它们为未来 EmAI 驱动的药物发现平台的开发提供了宝贵的见解和核心组件,并具有与物理设备集成的潜力。
基于 AI 的知识检索器(AI-based knowledge retriever)。随着 EmAI 的不断发展,一个日益关注的领域是开发能够模仿人类科学家分析能力的系统。像 ChemCrow [712] 和 CALMS [713] 这样的先进框架就是这一趋势的典型,利用如 GPT-4 这样的 LLM、多模态生成模型和图形检索方法(如 GraphRAG [714])整合科学知识、生物学原理和理论框架 [715]–[717]。这些系统超越了传统的数据处理,能够通过质疑假设、评估证据和验证结论进行批判性思维。此外,研究人员还整合了来自 PubMed [718],[719]、Wikipedia [720] 和其他开放资源的大量数据,以预训练生成模型。这些生成模型可以作为复合系统的一部分,整合 EmAI 世界模型、实验平台和人类专业知识,以解决需要跨学科方法的复杂问题 [27]。总结来说,AI 知识检索器的开发标志着 EmAI 未来方向的一个有希望的领域,在这个领域中,EmAI 可能在推动各个领域的知识和创新方面发挥更加核心的作用。
论文地址:https://arxiv.org/abs/2501.07468
进 Q 学术交流群:922230617