论文阅读 SV-RCNet: Workflow Recognition From Surgical Videos Using Recurrent Convolutional Network

SV-RCNet: Workflow Recognition From Surgical Videos Using Recurrent Convolutional Network

IEEE Transactions on Medical Imaging 2018

task

手术工作流识别

阅读记录

在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
对于第一个视频片段,这个视频片段的相位标签是P1。第二行显示ResNet-50的注意图,它更关注分布在图像底部的脂肪区域。因此,对ground truth的预测相当低,这些帧被错误地预测为P0。第三行是分别训练的ResNet-50+LSTM模型的注意图,该网络的注意逐渐从脂肪区转移到胆囊和手术器械,这是工作流识别的重要线索。因此,预测不断增加,最终正确分类第三帧。最后一行显示了从我们的SV-RCNet注意力地图,能够成功地集中注意的关键线索的三张照片,证明,联合时空训练,SV-RCNet能够产生更多的歧视表示编码的视觉和时间信息。
同样,第二个带有P3相位标签的视频片段中的注意图也显示了时间线索以及视觉和时间特征联合优化的重要性。看这个视频剪辑的第三个画面,重要的分类线索(手术工具:剪刀)几乎从画面中消失。ResNet-50由于只依赖单一帧信息,忽略了工具信息,错误地将其归类为P2。相比之下,单独训练的ResNet-50+LSTM模型可以感知这些信息。但是,注意区域仍然是分散的,因此该模型不能获得较高的预测可信度。相反,我们的SV-RCNet的注意区域更紧凑,与正确的相位类别相关,因此我们的方法具有更高的置信度。
第三个带有P7标签的视频片段中的注意图也清楚地展示了时空特征学习的优越性。从前两行可以看出,ResNet-50和单独训练的ResNet-50+LSTM模型在前两帧和工具几乎消失时关注的是手术工具和背景。虽然它们的注意区域包含了一些重要的视觉信息,但由于P0和P7之间帧场景的方差较低(见图8),这两个模型无法根据底层特征识别帧。相比之下,我们的SV-RCNet不仅关注手术工具,还能根据时空特征感知手术工具的运动路径。也就是说,它可以区分工具的运动方向,即输入到患者身上或收回到患者身上。因此,可以正确地识别出相位间方差有限的帧。
在这里插入图片描述
在这里插入图片描述

说明

以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!

此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接
在这里插入图片描述
更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值