文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答

Authors: Long Bai1† , Mobarakol Islam2† , Lalithkumar Seenivasan3 and Hongliang Ren1,3,4∗ , Senior Member, IEEE

Source: 2023 IEEE International Conference on Robotics and Automation (ICRA 2023) May 29 - June 2, 2023. London, UK

Abstract:

尽管有计算机辅助模拟器和录制的外科手术视频,但初级住院医师仍然严重依赖专家来回答他们的问题。然而,专家外科医生往往因临床和学术工作量而超负荷工作,并限制了他们回答问题的时间。为此,开发了一种手术问答系统,以促进机器人辅助手术场景和活动从录制的视频中理解。大多数现有的视觉问答 (VQA) 方法都需要对象检测器和基于区域的特征提取器来提取视觉特征,并将它们与问题的嵌入文本融合以生成答案。然而,(i)由于数据集较小且缺乏边界框注释,手术对象检测模型稀缺;(ii)目前文本和图像等异构模态的融合策略是幼稚的;(iii) 缺少局部应答,这在复杂的手术场景中至关重要。

在本文中,提出了机器人手术中的视觉问题定位-回答(Surgical-VQLA)来定位答案预测过程中的特定手术区域。为了处理异构模态的融合,设计了门控视觉语言嵌入(GVLE)来为语言视觉转换器(LViT)构建输入补丁来预测答案。为了获得定位,将检测头与LViT的预测头并行添加。还集成了广义交集并集 (GIoU) 损失,通过保持问答模型的准确性来提高定位性能。利用来自 EndoVis-17 和 18 的 MICCAI 挑战的公开可用的手术视频对 VQLA 的两个数据集进行注释。验证结果表明,Surgical-VQLA可以更好地理解手术场景,并定位与问答相关的特定区域。GVLE通过展示优于现有基准的性能,提出了一种有效的语言视觉嵌入技术。

主要贡献和优势是:

– 设计并提出了一个外科视觉问题局部化回答 (Surgical-VQLA1) 模型,该模型可以根据给定的输入问题和手术场景预测局部答案。

– 使用新颖的 GVLE 技术为 VQLA 任务提出一种无需检测的 GVLE-LViT 模型,该模型可有效融合异构特征(视觉和文本)。

– 将GIoU损失与交叉熵损失和L1损失相结合,以提高VQLA模型的预测和定位性能。

– 通过广泛的验证,发现 (i) 即使答案与手术相互作用有关,SurgicalVQLA 也可以定位上下文。(ii) 无探测器VQLA通过避免计算昂贵且容易出现错误的检测模块,展示了更好的特征学习,并促进了外科问题本地化回答系统的端到端实时应用。(iii) 拟议的GVLE有效地融合了视觉和文字嵌入的异构模式,并优于现有方法。

图 1.针对传统 VQA 任务,提出的 VQLA pipline概述。方法不需要对象建议,边界框预测可以与分类结果一起输出。

图 2.提出的网络架构。机器人手术图像为预训练的特征提取器提供信息,问题为定制的分词器提供信息。然后,GVLE模块嵌入输入特征,并优化视觉和文字嵌入的组合。融合特征通过预训练的 ViT 模块传播。最后,由带有softmax的分类头和带有FFN的定位头给出答案和边界框预测。

表一 GVLE-LVIT模型与基于VISUALBERT 和VISUALBERT RESMLP 的模型的比较实验。RN 表示 RESNET。

图 3.通过VisualBERT [6]、VisualBERT ResMLP [2]和GVLE-LViT模型生成答案和边界框的几个例子。与基线模型相比,本模型的定位和分类预测结果更准确。边界框颜色的表示如下:红色:Ground-truth,蓝色:VisualBERT [6],绿色:VisualBERT ResMLP [2],黄色:GVLE-LViT (Ours)。

表 II GVLE-LVIT模型在VQLA任务上的K折比较实验,与基于VISUALBERT [6]和VISUALBERT RESMLP [2]的模型。

表 III 基于 VISUALBERT [6] 和 VISUALBERT RESMLP [2] 的模型,在提出的 GVLE-LVIT 模型上具有不同定位损失函数组合的消融研究

表IV 基于GVLE语言-视觉嵌入融合与CONCAT[6]、AFF[13]和IAFF [13]融合策略的比较实验。

本文设计并提出了一个外科视觉问题局部化回答(Surgical-VQLA)模型,该模型可以根据给定的输入问题和手术场景回答“什么”和“在哪里?”,使学生更容易推断“为什么?”。具体来说,提出了一种 GVLE-LViT 模型,该模型使用提出的 GVLE 技术更好地融合异构特征(视觉和文本),该技术在两个外科数据集上的外科-VQLA 任务中优于现有的 SOTA 模型。此外,将GIoU损失与交叉熵损失和L1损失相结合,以提高模型的预测和定位性能。通过广泛的比较、k 倍和消融研究,证明使用提出的损失组合训练的 GVLE-LViT 优于现有的 SOTA 模型。SurgicalVQLA系统可能成为外科培训中的重要辅助工具。虽然所提出的VQLA模型旨在提供可靠的答案预测,但在某种程度上,答案的定位可以帮助量化预测对新数据的可靠性,如果定位远于目标仪器或组织,用户可以推断预测可能是错误的,或者输入数据是分布外数据。因此,使用定位信息来预测预测可靠性可能是未来可能的工作。从应用的角度来看,提出的VQLA模型为医学诊断开辟了新的可能应用。更复杂的数据集和具有挑战性的 QA 对将进一步提高 Surgical-VQLA 系统的前景。

Reference:

[1] Bai, L., Islam, M., Seenivasan, L., & Ren, H. (2023, May). Surgical-vqla: Transformer with gated vision-language embedding for visual question localized-answering in robotic surgery. In 2023 IEEE International Conference on Robotics and Automation (ICRA) (pp. 6859-6865). IEEE.

  • 96
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 66
    评论
好的,以下是对机器人技术视觉技术领域在当前的研究热点、已取得的成果和最新应用的五千字综述。 一、研究热点 1. 深度学习技术在视觉技术的应用 深度学习技术在机器人视觉方面的应用已经成为当前的研究热点。深度学习技术可以通过大量的数据训练模型,从而使机器人能够更好地理解环境,更好地执行任务。深度学习技术在机器人视觉方面的应用包括目标检测、图像分类、语义分割等。 2. 视觉推理技术 视觉推理技术是指机器人通过对环境的观察和分析,推断出环境存在的物体、场景和关系等信息。这种技术可以帮助机器人更好地理解环境和执行任务。 3. 三维视觉技术 三维视觉技术是指机器人通过对环境的三维建模,从而更好地理解环境。这种技术可以帮助机器人更好地执行任务,比如在室内环境移动和导航、在制造业进行自动化生产等。 4. 多模态视觉技术 多模态视觉技术是指机器人通过多种传感器获取信息,从而更好地理解环境。这种技术可以帮助机器人更好地执行任务,比如在室外环境进行自主导航、在智能家居进行自动化控制等。 5. 视觉跟踪技术 视觉跟踪技术是指机器人通过对目标的跟踪,从而更好地执行任务。这种技术可以帮助机器人在物体移动的情况下保持对目标的追踪,比如在机器人足球比赛追踪足球、在物流仓库追踪货物等。 二、已取得的成果 1. 无人驾驶汽车 无人驾驶汽车是机器人视觉技术的一个重要应用。通过视觉传感器获取环境信息,从而实现自主导航和避障。目前,很多汽车公司和科技公司都在研发无人驾驶汽车技术,如谷歌的Waymo、特斯拉、Uber等。 2. 工业机器人 工业机器人机器人视觉技术的另一个重要应用。通过视觉传感器获取环境信息,从而实现自动化生产和质量控制。目前,很多工业机器人制造商都在研发视觉技术,如ABB、KUKA、FANUC等。 3. 智能家居 智能家居是机器人视觉技术的一个新兴应用。通过视觉传感器获取环境信息,从而实现自动化控制和智能化管理。目前,很多科技公司都在研发智能家居技术,如苹果的HomeKit、谷歌的Nest等。 4. 机器人足球 机器人足球是机器人视觉技术的一个特殊应用。通过视觉传感器获取场地信息和足球信息,从而实现机器人足球比赛。目前,机器人足球比赛已经成为一个国际性的竞赛活动,吸引了很多科技公司和高校的关注和参与。 三、最新应用 1. 机器人服务 机器人服务是机器人视觉技术的一个新兴应用。通过视觉传感器获取环境信息和用户信息,从而为用户提供个性化的服务。目前,很多科技公司都在研发机器人服务技术,如京东的JIMI、阿里巴巴的ET等。 2. 医疗机器人 医疗机器人机器人视觉技术的另一个新兴应用。通过视觉传感器获取病人的生理参数和病情信息,从而实现诊断和治疗。目前,很多科技公司和医疗机构都在研发医疗机器人技术,如Intuitive Surgical的达芬奇手术机器人、普渡大学的机器人手术等。 3. 农业机器人 农业机器人机器人视觉技术的一个新兴应用。通过视觉传感器获取农田信息和作物信息,从而实现自动化种植和智能化管理。目前,很多农业机器人制造商都在研发视觉技术,如Blue River Technology的See & Spray等。 4. 救援机器人 救援机器人机器人视觉技术的一个特殊应用。通过视觉传感器获取灾区信息和受灾者信息,从而实现救援和救助。目前,很多科技公司和救援机构都在研发救援机器人技术,如iRobot的PackBot、波士顿动力的Spot等。 四、总结 机器人视觉技术是机器人技术的一个重要领域,随着深度学习技术、视觉推理技术、三维视觉技术、多模态视觉技术、视觉跟踪技术等技术的不断发展,机器人视觉技术在无人驾驶汽车、工业机器人、智能家居、机器人足球等领域已经取得了很多成果,同时也在机器人服务、医疗机器人、农业机器人、救援机器人等领域应用的不断拓展。随着技术的不断进步,机器人视觉技术将会在更多的领域得到应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 66
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Metaphysicist.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值