Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Ro

最新推荐文章于 2024-03-19 18:51:27 发布

开心的火龙果

最新推荐文章于 2024-03-19 18:51:27 发布

阅读量1.8k

点赞数

分类专栏：深度学习文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/weixin_40683960/article/details/122929158

版权

深度学习专栏收录该内容

23 篇文章 2 订阅

订阅专栏

【ICRA:Best Paper Award in Medical Robotics】Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery

本文提出了一种在线多模态图学习方法，可动态整合机器人系统的视频数据和运动学数据，实现针对机器人系统的手术手势识别。本文方法在公共JIGSAWS数据集上达到sota，在缝合和打结任务上都优于当前的单模态和多模态方法。

运动学数据和视频数据可以看作是手术机器人的手和眼睛，眼睛能够为两只手协同执行特定动作提供视觉引导信息，手则能够驱动视觉场景的变化。受到这个思路的启发，本文设计了整合了运动学信息和视频信息的多模态图模型。该模型由三个部分组成，即视觉和运动学信息提取模块，以及关系图卷积网络。模型首先用视觉和运动学信息提取模块提取视觉和运动学特征，然后利用关系图卷积网络来整合（视频特征，左手特征，右手特征），最后通过一个全联接层进行手势分类，来预测每个时间步长的手术手势的概率分布。

方法具体介绍

视觉特征：对于每个时间步长t，将当前帧图像输入到ResNet-18中能够得到图像特征，进而可以得到一个图像特征序列；将该图像特征序列输入一个时间卷积网络，建立帧之间的关系，从而得到融合了时间特征的图像特征序列{s_t}。
运动学特征：特征提取器采用TCN和LSTM结构。将运动学数据分别作为TCN和lstm的输入，对每一步得到的lstm特征和tcn特征取平均作为当前步的特征。因为两个机械臂会导致不同的动作，模型分别对左右两边的运动学数据编码。
多模态特征融合：采用关系图卷积网络对特征{左机械臂特征，右机械臂特征，视频特征}进行特征融合和更新；在这里作者总结出了三种关系，第一种是视觉到运动的关系，可以理解为人类与"眼睛"的感知，为"手"移动提供指导信息。第二种关系是运动到视觉，它反映了"手"向"眼睛"提供反馈的机制，最后一种关系是左右臂之间的运动，可以看作是两只"手"互相帮助完成任务。为了更好地利用这些关系，作者设计了有向图来提升模型表现；
分类层：采用concat的{左机械臂特征，右机械臂特征，视频特征}特征作为分类层的输入，分类层采用全连接结构；
损失函数：使用加权交叉熵损失函数；

实验：
JIGSAWS是一个公开的手势和技能评估数据集，文章在该数据集上进行了模型验证，涉及两个任务（缝合和打结），分别由39个视频和36个视频组成；JIGSAWS数据集采用的评估指标包括：i）帧级的准确性（%），即计算正确识别帧的百分比，ii）编辑分数（在范围[0，100]中，分数越高越好），旨在衡量视频分割级别的性能，以强调时间平滑度。
在这里插入图片描述
上面的两幅图像显示了和其他方法的对比结果，可以看到不管是对比单模态还是多模态的方法，本文模型都更有优势；
此外，文章进行了消融实验：

消融实验：1）Pure-Vis：使用视觉数据的单模态，2）Pure-Kin：使用运动学的单模态，3）TCN-KV（无拆分）：将视频和运动学（不拆分左右臂）与TCN合并，4）TCN-KV：将视频和运动学（左/右臂分开）与TCN合并，5）GCN-KV：使用没有多关系的普通GCN进行多模态学习；实验证明，融合视觉和运动学特征可以实现更高的性能，输入左右运动学数据会产生更好的结果。

开心的火龙果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Ro

【ICRA:Best Paper Award in Medical Robotics】Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery本文提出了一种在线多模态图学习方法，可动态整合机器人系统的视频数据和运动学数据，实现针对机器人系统的手术手势识别。本文方法在公共JIGSAWS数据集上达到sota，在缝合和打结任务上都优于当前的单模
复制链接

扫一扫