Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Ro

【ICRA:Best Paper Award in Medical Robotics】Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery

本文提出了一种在线多模态图学习方法,可动态整合机器人系统的视频数据和运动学数据,实现针对机器人系统的手术手势识别。本文方法在公共JIGSAWS数据集上达到sota,在缝合和打结任务上都优于当前的单模态和多模态方法。

运动学数据和视频数据可以看作是手术机器人的手和眼睛,眼睛能够为两只手协同执行特定动作提供视觉引导信息,手则能够驱动视觉场景的变化。受到这个思路的启发,本文设计了整合了运动学信息和视频信息的多模态图模型。该模型由三个部分组成,即视觉和运动学信息提取模块,以及关系图卷积网络。模型首先用视觉和运动学信息提取模块提取视觉和运动学特征,然后利用关系图卷积网络来整合(视频特征,左手特征,右手特征),最后通过一个全联接层进行手势分类,来预测每个时间步长的手术手势的概率分布。

方法具体介绍

  • 视觉特征:对于每个时间步长t,将当前帧图像输入到ResNet-18中能够得到图像特征,进而可以得到一个图像特征序列;将该图像特征序列输入一个时间卷积网络,建立帧之间的关系,从而得到融合了时间特征的图像特征序列{s_t}。
  • 运动学特征:特征提取器采用TCN和LSTM结构。将运动学数据分别作为TCN和lstm的输入,对每一步得到的lstm特征和tcn特征取平均作为当前步的特征。因为两个机械臂会导致不同的动作,模型分别对左右两边的运动学数据编码。
  • 多模态特征融合:采用关系图卷积网络对特征{左机械臂特征,右机械臂特征,视频特征}进行特征融合和更新;在这里作者总结出了三种关系,第一种是视觉到运动的关系,可以理解为人类与"眼睛"的感知,为"手"移动提供指导信息。第二种关系是运动到视觉,它反映了"手"向"眼睛"提供反馈的机制,最后一种关系是左右臂之间的运动,可以看作是两只"手"互相帮助完成任务。为了更好地利用这些关系,作者设计了有向图来提升模型表现;
  • 分类层:采用concat的{左机械臂特征,右机械臂特征,视频特征}特征作为分类层的输入,分类层采用全连接结构;
  • 损失函数:使用加权交叉熵损失函数;

实验:
JIGSAWS是一个公开的手势和技能评估数据集,文章在该数据集上进行了模型验证,涉及两个任务(缝合和打结),分别由39个视频和36个视频组成;JIGSAWS数据集采用的评估指标包括:i)帧级的准确性(%),即计算正确识别帧的百分比,ii)编辑分数(在范围[0,100]中,分数越高越好),旨在衡量视频分割级别的性能,以强调时间平滑度。
在这里插入图片描述在这里插入图片描述
上面的两幅图像显示了和其他方法的对比结果,可以看到不管是对比单模态还是多模态的方法,本文模型都更有优势;
此外,文章进行了消融实验:
在这里插入图片描述
消融实验:1)Pure-Vis:使用视觉数据的单模态,2)Pure-Kin:使用运动学的单模态,3)TCN-KV(无拆分):将视频和运动学(不拆分左右臂)与TCN合并,4)TCN-KV:将视频和运动学(左/右臂分开)与TCN合并,5)GCN-KV:使用没有多关系的普通GCN进行多模态学习;实验证明,融合视觉和运动学特征可以实现更高的性能,输入左右运动学数据会产生更好的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值