论文原文:Deep Learning with Convolutional Neural Network for Objective Skill Evaluation in Robot-assisted Surgery
出版:CARS 2018——International Journal of Computer Assisted Radiology and Surgery (2018) 13:1959–1970
搬运目的:选修课水的report作业搬过来了,有关医疗机器人的论文。(知乎导入的文档格式有些问题见谅)
卷积神经网络深度学习在机器人辅助手术客观技能评价中的应用(解读)
摘要
本文的研究目的:
随着机器人辅助手术的出现,数据驱动方法在统计学和机器学习中的作用迅速增长,对客观的手术技能评估有较为乐观的前景。然而,大多数现有的工作需要将机器人运动运动学转换为中间特征或手势片段,这些特征或手势片段提取成本高、效率低,并且需要大量的专业领域特定知识。
本文的研究方法:
我们提出了一个分析性的深度学习框架,用于外科手术训练中的技能评估。采用深度卷积神经网络将运动学的多变量时间序列数据映射到个体技能水平。
本文的研究结果:
我们在公共微创外科机器人数据集(JIGSAWS)上进行了实验。我们提出的学习模型在标准训练任务:缝合、穿针和打结中分别达到92.5%、95.4%和91.3%的准确率。我们的模型不需要经过精心设计的特征或费心调整的手势分割,可以通过端到端的学习成功地从原始运动文件中解码技能信息。同时,该模型能够在1-3秒的时间内可靠地解释技能,而无需观察整个手术训练试验。
本文的研究结论:
这项研究强调了在现代外科培训中,深度架构在有效的在线技能评估方面的潜力。
一、评估方法的研究进展
目前研究现状下,对外科手术技能评估主要分为两类:
描述性的统计分析:主要是手术运动观察计算特征,定量描述外科的技能水平。比如运动时间、路径长度、曲率等等,然而需要手动选取特征,需要相应知识才能设计最佳任务指标。
基于预测建模:描述建模通过原始运动数据转换成中间解释和一部分特征,来学习模型,如k近邻(kNN)、逻辑回归(LR)、支持向量机(SVM)和线性判别分析(LDA)。但是模型准确性收提取到特征的质量限制,考虑手术动作复杂性,关键信息容易被丢弃。
本文采用了在复杂模式识别表现较好的深度学习模型,机器可以通过从低到高的层次结构层自动处理和学习输入数据。
二、本文亮点与贡献
①采用端到端的学习方式,而不依赖精心设计的特征或者手势分割,对外科手术操作进行分类和水平评估。
②相对传统的那些模型,本文提出的模型缝合准确率提高了2.89%~22.68%,打结准确率提高了10.94%~21.09%;在LOSO交叉验证下,模型可以在更快的时间进行分类(W3需要214.14ms但是比W2提高2.24%的准确率)。最后在标准训练任务缝合、穿针和打结中,分别可以达到92.5%、95.4%和91.3%的准确率。
图1 机器人辅助微创手术在线技能评估的端到端框架。
(该框架利用多变量运动数据的窗口序列作为输入,从机器人末端执行器记录,并通过深度学习模型输出对手术技能进行鉴别评估)
三、研究方法和过程
3.1数据集
数据集包含了来自八位具有不同机器人手术经验的外科医生的记录。每个外科医生执行三种不同的训练任务,即缝合(SU)、打结(KT)和穿针(NP),并重复每项任务五次。
报告技能标签的两种方式是:(1)根据专家报告时间大于100小时、介于10小时和100小时之间、新手报告总手术机器人操作时间小于10小时的实践时间自我评价的技能标签,(2)由经验丰富的外科医生手动评分的(global rating scale)全球评分量表(GRS),范围从6到30。
为了使用GRS评分来标记外科医生的技能水平,本文在穿针和打结任务中,使用15和20的阈值将外科医生分为新手、中级和专家,在缝合中使用19和24的阈值进行技能标记。
机器人运动数据(采样频率30hz)被捕获为多变量时间序列,每个末端执行器有19个测量值:刀尖笛卡尔坐标(x,y,z)、旋转(用3×3矩阵R表示)、线速度(vx,vy,vz)、角速度(ωx,ωy,ωz)和夹持器角度θ。
表1 数据来自JHU-ISI手势和技能评估工作集(JIGSAWS),这是唯一一个公开的微创外科数据库,它是从达芬奇远程机器人外科系统收集的
3.2外科分类模型
手术技能的评估可以转化为有监督的三分类问题,其中输入是从手术机器人末端执行器X测量的运动学多变量时间序列(MTS),输出是代表受训者相应专业水平的预测标签{1 : “Novice”, 2: “Intermediate”, 3 : “Expert”}。
则目标函数为
其中m是训练示例的总数,K是类号,K=3,是给定特定训练模型参数θ时,单个训练示例上的预测标签分配给K类的条件概率。
图2 10层卷积神经网络的所提议的深度模型图示。本图中使用的窗宽W为60。
(从输入开始,该模型由三个conv-pool级组成,每个conv-pool级有一个卷积和max池,一个扁平化层,两个完全连接层,一个softmax层用于输出。在训练时最大池化失活率为20%、全连接失活率为50%)
3.3数据的输入与扩充
上述方法的一个优点是可以产生更大规模的集合,用于网络的鲁棒训练和测试。而且允许我们将时间序列格式化为等长输入,而不必考虑原始数据的不同长度。
其中X为输入运动数据,s为输出裁剪(即子序列),W为滑动窗口大小,L为步长。在经过反复试验后,我们选择了窗口大小W=60和步长L=30。而Crops过程数据进行了扩增,分别产生了6290、6780和3542种序列用于训练缝合、穿针和打结。
四、性能评价与验证
留一法交叉验证Leave-one-supertrial-out(LOSO):假设有N个样本,将每一个样本作为测试样本,其它N-1个样本作为训练样本。这样得到N个分类器,N个测试结果。用这N个结果的平均值来衡量模型的性能。
Hold-out法验证:先使用训练集训练模型,然后利用测试集验证模型的效果,记录最后的分类准确率作为Hold-Out下该模型的性能指标。比方说,处理时间序列模型是否准确的时候,把整个数据集合分成前后两部分,前部分占比70%,后部分占比30%。前部分来进行时间序列模型的训练,后部分用来测试改时间序列的准确性。
表2 汇总表显示了基于不同验证方案和滑动窗口的自我评价分类性能
为了比较模型性能,根据四个常用指标对分类进行评估:
平均准确率:正确预测之和与预测总数的比值;
精确度precision:真阳率(Tp)与总阳性预测结果的准确率(Tp+Fp)的比值;
召回率recall:真阳率(Tp)和总阳性真实结果(Tp+Fn)的比值;
F1分数f1-score:精确性和召回率之间的加权调和平均值。
这样可以做出混淆矩阵:
图3 三个外科训练任务分类结果的混淆矩阵。
(A是自我评价的技能分类,B是GRS为基础的技能分类。元素值(i,j)和颜色表示预测的技能标签j的概率,给定自我评价的技能标签i,其中i和j∈{1:“新手”,2:“中级”,3:“专家”}。对角线对应正确的预测)
五、结果
基于JIGSAWS数据的技能评定本文算法与传统算法准确率比较:
六、局限性和改进措施
作为一个监督学习模型,其分类精度很大程度是依赖于专家标记的样本的,而且GRS分数的技能区分的阈值是不被普遍接受的。
另外可以对模型的结构、超参数设置和数据增强方法进行优化,以更好地处理运动时间序列数据并进一步提高online的性能。
由于深度学习模型的黑箱性质,分类的标准可解释性受到限制,可以研究深层表示的可视化来进一步解释分类、评估的决策。