论文阅读笔记（3）---基于深度学习的节律异常或传导阻滞多标签心电图自动诊断

本文链接：https://blog.csdn.net/qq_39594939/article/details/113559453

论文地址：Automatic multilabel electrocardiogram diagnosis of heart rhythm or conduction abnormalities with deep learning: a cohort study

背景介绍

心电图（ECG）是诊断心律不齐的基本且可靠的检测。在临床中，利用ECG对多类并发性心律不齐的患者进行诊断是很常见的。而心电图诊断错误可能会导致不当的临床决策和不良后果。
通常，心脏病专家需要接受12年以上的培训，包括本科学习，医学训练，内科住院实习和心脏病学研究。但是，即使对于有经验的心脏病专家来说，为并发性心律不齐的患者准确解释ECG也是有一定难度的。在全球范围内，每年有超过3亿次心电图检查。低收入和中等收入国家，由于缺乏经验丰富的心脏病专家，很难提供正确的诊断。因此，对于人工智能支持下的多标签ECG自动诊断框架有着迫切的需求。
到目前为止，大多数的研究都集中在心电信号片段上。
现有算法仅使用来自单通道ECG或单一来源ECG的数据。以前的深度学习模型大多是在基准数据集上训练和验证的。
没有一项研究涵盖了各种类型的节律异常或传导阻滞，并且能研究一种对每一种异常都具有高准确率的深度学习算法。

数据来源

在这里插入图片描述

数据集包括来自武汉华中科技大学同济医学院心内科三个校区（主校区，光谷校区和中法新城校区）成年患者（≥18岁）的心电图数据。数据集包括使用GE-Marquette 3500型或5500型ECG机器以500 Hz采样率记录的标准10s，12通道ECG，以及由动态心电图仪记录的24 h动态12通道ECG和电生理监护仪记录的ECG。应用洗牌随机分配训练和验证集。对于不太常见的异常，一些患者贡献了多个心电图记录以确保训练数据集的平衡。对于记录了多个心电图的患者，其心电图仅用于训练或验证，以防止患者重叠。
中国生理信号挑战赛（于2018年1月15日启动）提供了一个独立的、开放获取的数据集，其中包含来自11家不同医院的6878个12通道的异常心电图。作者用这些数据作为外部验证，以检查所提出方法的可推广性。该外部数据集包括记录了10 s以上时间的心电图，并包含了训练数据集不包括的异常情况。为确保数据格式与模型输入一致，从外部数据集中选择了记录时间超过10 s的心电图，并将其裁剪为10 s。在这些裁剪的心电图中，我们选择962个正常或与我们的数据集种存在的五个异常之一来进行外部验证。
从新患者里收集了心电图的测试数据集，这些患者不提供训练数据集。测试数据集由经验丰富的心脏病专家们一致标注。测试数据集中的每个患者仅对该组贡献了一个心电图。

（A）在训练和测试数据集中多标签ECG的比例。
（B）在所包括的节奏类别中的八个类别中，多标签ECG的比例。除心室自主心律（由于这种疾病的稀有性，共有1780个样本）外，至少有4000个样本显示出多种异常，从而可以建立一个平衡的数据集。

3. 网络结构

在这里插入图片描述

网络输入为5000×12矩阵：由以500Hz采样的标准的10s，12通道的原始心电图转换而成。
网络输出是1×21矢量：此矢量的每个元素对应一个特定的心律类别。患有多个心律不齐的患者的心电图的输出向量包含一个以上的非零元素。
模型的总体框架可以用下面的表达式写出来：

其中，*表示这些层重复堆叠。利用带有批量归一化层和Relu激活层的卷积层从12导联心电图中提取局部特征。然后利用平均池化层将卷积层提取到的特征映射为特征向量。两个Dense块接收到特征向量。每个Dense块包含一个Dense层，然后是ReLU和一个Dropout层。然后使用21个sigmoid函数来计算输入ECG样本属于哪些心律类别。
Residual：
本研究中使用了残差块（Residual），通过跳过几层，信息可以直接流到下一个块/层。这有助于减少反向传播的误差，以防止梯度爆炸或消失。通过引入残差块，我们能够增加训练网络的深度，从而比标准卷积神经网络具有更多的层次和可调参数，从而大大提高了性能。每个剩余块具有以下形式：

式（2）中有两种Residual结构：标识块（IDEN）和卷积块（CONV）。具体来说，IDEN块比较典型，通过使用跳过连接将块输入添加到输出：

其中conv称为残差函数,由一个卷积层和一个批归一化层和一个ReLU激活层组成。
卷积块具有比标识块更深的网络结构，通过向剩余函数和跳过连接添加另一卷积函数：

卷积层的模型参数包括K（核大小）、Ch（通道数）和S（步长）。最大池大小和平均池大小L是池窗口的大小。在Dense层中，M是神经元数。在Dense体中，dropout概率为0.6。
总结网络特点：

所提出的卷积神经网络模型对21种心律类型进行多标签分类。
使用了残差块（Residual），通过跳过几层，减少反向传播的误差，以防止梯度爆炸或消失。
使用非线性的丢弃层来为模型提供更好的收敛速度并防止过度拟合。
使用多交叉熵损失函数训练模型，其中权重是所有类的最大样本量相对于该类的样本量的比率。

4. 实验结果

通过评估模型的预测准确性，受试者工作特征（ROC）的曲线下面积（AUC），敏感性，特异性和F1得分（精确度和敏感性的调和平均值）来评估模型的性能，置信区间为95％CI。
ROC曲线全称为受试者工作特征曲线（receiver operating characteristic curve），它是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感性）为纵坐标，假阳性率（1-特异性）为横坐标绘制的曲线。
AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。
每个类节律n的精确度，敏感性，特异性和F1得分（其中n是一个正整数）与真阳性（TP），真阴性（TN），假阳性（FP）和假阴性相关（FN）率，其公式如下：
〖精确度〗_n=TP/(TP+FP)
〖敏感性〗_n=TP/(TP+FN)
〖特异性〗_n=TP/(TP+FN)
〖F1〗_n=(2×精确度×敏感性)/(〖精确度〗_n+〖敏感性〗_n )
算法对21种分类的AUC ROC平均得分为0.983（95％CI 0.980-0.986），灵敏度为0.867（0.849-0.885），特异性为0.995（0.994-0.996）。

在这里插入图片描述
针对九种常见的心律类别，我们将模型的F1得分与心电图医师的F1得分进行了比较。算法对代表性九种心律不齐的平均F1评分为0.943（95％CI 0.934-0.951），超过了医师的平均得分0.875。模型对九种代表性心律获得的F1得分均高于医师平均得分。
在这里插入图片描述
在所有21个分类中，我们的模型的整体F1平均得分为0.887，相比之下，具有0–6年经验的医师为0.789，具有7–12年经验的医师为0.815，具有12年以上经验的医师为0.831。该模型的F1评分范围为0.692至0.998。在21个心律类中的19个，该算法的F1得分高于医师。

在这里插入图片描述
模型的混淆矩阵中对角线上的TP值均高于心电图医生的相应值。两种混淆矩阵针对不同的类心律具有相似的颜色分布，这表明该模型学习了医师认可的隐藏特征。

测试数据集的结果表明，与Hannun及其同事从模型中得出的序列水平结果相比，我们的模型对于列出的大多数心律F1得分更高。模型的平均F1分数（0.916）高于医师的平均F1分数（0.801）。

在这里插入图片描述
对于外部公开的验证数据，我们的模型（未进行任何模型修改）在多标签ECG中的平均F1评分为0.845，在单标签ECG中的平均F1评分为0.852（附录1 pp 16），这与同济医院患者构建的测试集数据结果相似（比多标签模型的平均F1分数低0.025，比单标签模型的平均F1分数低0.076）。以上结果表明，该算法在不同医院的不同患者中具有通用性。

研究贡献

作者认为在标准格式的原始数据（无需预处理）和来自其他不同来源的ECG样本中有大量未使用的信息。合理地使用这些数据可以提高所提出的机器学习算法的适用性和通用性。因此，作者构建的数据集保留了原始格式的心电图结果，无需进一步处理。
作者提出了一种卷积神经网络方法，能够正确解释正常心电图，并对20种心律失常（包括所有常见的节律异常或传导阻滞类型）进行高度准确的多标签诊断。
发现模型超过了临床上受过心电图解释训练的医生的表现。
作者通过分离多标签（患有多种疾病的患者）的心电图简化了数据集，并训练了另一个用于多类别心电图诊断的深度学习模型。将算法与现有的模型进行比较。诊断结果表明，该模型优于现有模型。

总结

数据集特点：
① 研究中数据集保留了原始格式的心电图结果，无需进一步处理，这为准确诊断某些特定的心律失常提供了必要的信息。因此模型能够成功地提取和区分复杂的特征。即使是对于高度相似的心电图波形，该模型也可以检测出医生看不到的特征，获得了比医生更高的F1评分。
② 包含有21种不同的心律类型，这其中我们保证了男性和女性数量的一致性以及年龄段的多样性，而患者出现一种以上的心律失常代表了数据集中疾病的多样性。
③ 以前的深度学习模型大多是在基准数据集上训练和验证的，作者用来自同济医院（华中科技大学，武汉）的三个校区的数据进行训练，并且从新患者里收集了心电图的测试数据集，同时利用中国生理信号挑战赛提供的独立的、开放获取的数据集证明通用性。
模型特点：
① 这是第一次使用深度学习方法系统地研究着几乎所有类型的由心律和传导功能障碍引起的心律失常，从而形成基于人工智能的端到端的多标签心电图诊断模型。
② 作者创新性地提出了ECG数据的多标签分类，它可以在患者的单一监测周期内检测出多种异常。
③ 正如将算法应用于测试数据集所示，自动心电图诊断系统的结果可以达到甚至超过医生的诊断结果。
④ 作者使用了来自11家不同医院的外部公共测试数据集，未进行任何模型修改的情况下来证明我们提出的算法的通用性。
⑤ 作者提出了一种单标签模型，优于其他单标签模型。
研究局限性：
① 由于缺少患者样本，少数几种类型的心律和传导性心律失常未被包含。
② 数据集中未包括心肌梗塞，心房或心室肥大的心电图失常，因为这些异常往往主要通过波形的整体形状来表征，而不是通过此处研究的特征性心律和传导功能障碍来表征。
③ 该模型误诊或漏诊了几次多标签ECG诊断。
④ 本研究的患者主要来自中国大陆中部地区。尽管我们的数据集很好地捕捉到了这一人群的变化，但患者的地理多样性有限，人口覆盖率仍然不足。