题目:基于深度学习的乳腺肿瘤的剪切波弹性成像分类
摘要:本研究旨在建立一个深度学习(DL)架构,用于从剪切波弹性成像(SWE)中自动提取从数据中学习到的图像特征,并评估DL架构在区分良恶性乳腺肿瘤中的作用。我们构建了一个用于SWE特征提取的两层DL体系结构,由点向门控玻尔兹曼机(PGBM)和限制性玻尔兹曼机(RBM)组成。PGBM包含与任务相关和与任务无关的隐藏单元,而与任务相关的单元与RBM相连。对来自121例患者的227张SWE图像、135张良性肿瘤和92张恶性肿瘤进行了5倍交叉验证。用我们的DL架构学习到的特征与量化图像强度和纹理的统计特征进行了比较。结果显示,DL特征具有较好的分类性能,准确率为93.4%,灵敏度为88.6%,特异性为97.1%,受试者工作特征曲线下面积为0.947。基于dl的方法将特征学习与SWE上的特征选择相结合。它可能有可能被用于乳腺癌的临床计算机辅助诊断。
1. Introduction
图1所示的SWE图像说明了乳腺肿瘤诊断的高视觉变异性,这是由于乳腺组织的硬度分布不同引起的。
传统上,在标准超声和SWE上使用统计特征(SFs),在计算机视觉研究领域也称为人工制作的特征。SFs包括肿瘤的形状和形态学参数、强度统计和量化肿瘤异质性的纹理特征。SFs通常是通过依赖专家知识或人工劳动来提取的,而特定SFs的选择对分类性能[10]的影响很大。
然而,乳腺肿瘤的SWE图像包含伪影、噪声和其他不相关的模式,如不规则的刚度分布[7]。例如,良性肿瘤(图1d)的邻近组织坚硬不均匀,恶性肿瘤(图1e)的邻近组织较软,容易导致误诊。在构建DL体系结构时,它可以从复杂的SWE图像数据中进行可靠的学习。因此,挑战在于如何学习健壮的表示,以区分有用的(即任务相关的)模式与大量的分散注意力的(即任务无关的)模式[21,22]。另一个挑战是如何理解和利用可能与任务相关但难以被人类观察者解释的模式,如SWE上没有颜色的黑洞(图1b-e),即具有无效刚度值的缺失区域。
流行的DL方法,包括自动编码器和卷积神经网络,不适合克服这些挑战,因为它们不专注于区分与任务相关和不相关的模式。相反,一种新提出的DL方法,即点向门控玻尔兹曼机(PGBM),似乎是一种很有前途的技术,它引入了一种门控机制来估计任务相关模式发生的位置。本文提出了一种基于PGBM的统一DL架构,用于稳健地学习SWE图像表示和区分乳腺良恶性乳腺肿瘤[22]。因此,用户不需要手动识别特定的特征,而DL网络使用训练集来学习固有的任务相关模式。
2. Methods
2.1.图像采集和预处理
121女性患者。每个患者可能有多个病变,每个病变都要获得一张或两张图像并存储在DICOM标准中。在这里,对于难以解释和诊断的病变,我们获得了两张图像。所有病变均行切除活检、芯针活检或细针穿刺活检进行病理诊断,作为评估CAD的金标准。当有多个活检结果时,根据以下优先级确定最终诊断:切除活检、芯针活检和细针穿刺活检。共计227张图像,其中良性肿瘤135张,恶性肿瘤92张。
记录的SWE图像被描述为一个复合彩色图像(图1b-e底部)叠加在相应的b模式灰度图像(图1b-e顶部)上。通过从合成彩色图像[6,7]中减去b模灰度图像,得到纯SWE图像。每张纯SWE图像的大小在360*490*3左右,通过双线性插值将其降采样到36*49*3,分辨率为12.26 ± 1.62像素/cm(图1b-e)。然后将其从矩阵转换为像素向量,直接作为DL网络的输入。
2.2.深度学习架构
DL架构,最初引入深度信念网络(DBNs)[23,24],是人工神经网络由学习特征层次特征的高级层次的组合特征,其目标是产生更抽象和不同的表示[20,25]。dbn由几层受限制的玻尔兹曼机(rbm)组成,它们使用二进制潜在变量[20,23]来建模二进制数据向量。然而,由于不相关模式[21]引起的干扰,rbm不能直接用于建模复杂的SWE图像数据。PGBM作为一种高阶玻尔兹曼机,对上述复杂图像数据[22]进行建模。
2.3.点向门控玻尔兹曼机
在SWE乳腺肿瘤的CAD中,图像数据包含大量无关的感觉模式。探索一种自动学习算法来区分相关的和不相关的问题模式至关重要。在这里,我们使用有监督的PGBM将特征学习与特征选择一致地集成在一个统一的框架[22]中,如图2所示。通过使用随机“开关单元”的门控机制,PGBM可以对学习到的高级特征(即隐藏单元)和原始特征(即使用图像像素的可见单元)进行特征选择。开关单元允许PGBM估计每个与任务相关的模式发生的瑞士图像,并只使那些可见的单元对最终的分类做出贡献。该模型忽略了原始特征(像素)的任务无关部分,从而进行动态特征选择,即根据对单个图像[22]的自适应解释,选择原始特征的变量子集。
更具体地说,我们将SWE彩色图像中具有三个颜色值(红色2、绿色和蓝色)的每个像素视为三个可见单元(图2)。当以隐藏单位hj为条件时,我们将每个可见单位vi表示为一个混合模型,它被划分为两个混合成分,第一个对应任务相关模式,第二个对应任务无关模式[22]。
PGBM有二项式开关单元,它与可见的单元配对。第i个开关单元的第r个组件(r = 1,2)用 表示每个可见单元,满足。PGBM在可见单元和成对的开关单元之间施加了点方向的乘法相互作用。PGBM的能量函数由[22]表示:
该推理是通过交替吉布斯采样[23]来完成的。
PGBM每个可见单元根据其配对的开关单元,通过使用点方向的乘法相互作用,即公式(1)。乘法交互使每个组件中的隐藏单元聚焦于图像的特定部分,这样一个组件中的隐藏单元对另一个组件学习到的模式具有鲁棒性。PGBM还鼓励将相同的组件分配给相似和相关的可见单元,因此它可以动态地保留相关的原始特征,并为每个图像[22]删除不相关的特征。
2.4.统一的基于PGBM的DL体系结构
如图2所示,我们提出了一个统一的乳腺肿瘤CAD的双层DL结构,这是一个监督分类的任务。使用PGBM作为第一层的构建块,整合了来自SWE图像的图像表示学习和特征选择。然后,RBM作为第二层,并最终产生更多不同的肿瘤分类表示。最终将支持向量机(SVM)连接到RBM上进行预测[27]。
在第一层中,只有任务相关组件中的隐藏单元被连接到标签单元(图2)。具有两种混合成分的监督PGBM通过任务相关的隐藏单元将乳腺肿瘤标签信息转移到原始的SWE图像中,从而以统一的方式对[22]进行高、低水平的生成特征选择。
第二层,即堆叠的RBM,从与任务相关的信息中学习不同的表征(图2),因为PGBM能够通过监督[22]选择与任务相关的隐藏单元。在第二层之后,经典的分类器SVM[27–29]用于鉴别乳腺良恶性肿瘤(图2)。
2.5.交叉验证
肿瘤分类的训练和测试程序采用五倍交叉验证:在将从同一患者获得的多个图像分配到相同子集的前提下,将整个数据集随机分为5个大小相同的子集;四个子集一起用于训练,其余一个用于测试,这个过程重复五次,每个子集作为测试集使用一次。如表1所示,对这5个亚群的病变类型(良性或恶性)、患者年龄、病变半径和肿瘤内是否存在黑洞进行了匹配(p > 0.05)。
定量评价时,采用分类准确性、敏感性、特异性和约登指数(Youden1,YI=敏感性+特异性1)来衡量分类性能。利用受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)对分类离子模型进行了评价。
通过交叉验证,有两种方法可以统计评估改进的DL方法比其他方法: (a)我们使用五个测试集的分类性能指数作为样本,在每两个分类模型之间进行配对t检验;(b)我们将五个测试集的诊断结果汇总在一起,总结了正确和错误分类的病例数,并在两个模型之间进行v2检验。
3. Experiments and results
3.1.实验设置
3.1.1.参数设置
我们在一个平台上使用MatlabR2014b(math工作公司,Natick,MA)编写算法,该平台包含一个四核,3.30 GHz Intel i5-4590 CPU和8 GB的1333 MHz DDR3 RAM。我们进行了实验来证明所提出的DL体系结构的有效性。将一个像素的三个颜色值作为三个输入值,因此有5292个(=36493)输入单元。PGBM和RBM中隐藏单位的数量分别被经验设置为1500和250。PGBM隐藏单元中相关成分和无关成分的数量均为750个。
3.1.2.用统计特征进行比较
为了便于比较,我们还从纯SWE图像中提取SFs,并采用水平集分割方法进行肿瘤检测和定位[7]。SFs量化了SWE上的强度和纹理,并在两个图像域,即原始域和轮廓域上进行了计算。在每个域上,SFs由一阶统计量和灰度共现矩阵(GLCM)纹理特征组成。一阶统计量包括肿瘤内弹性分布的平均值、标准差、偏度、面积比和若干百分位数,GLCM特征包括弹性分布[7,30]的能量、熵、对比度和均匀性。共计算出286个SFs。
我们比较了使用我们的DL体系结构和SFs在乳腺肿瘤分类中学习和选择的特征。我们执行并比较了三种关于SFs的特征缩减方案:(a)主成分分析(PCA),(b)t检验,以及(c)所有286个没有特征缩减的特征。当使用PCA时,在10个间隔内保留10-280个组件作为以下分类器的输入,并对其分类精度进行比较,以确定保留组件的最佳数量。在使用t检验时,设置并比较p值分别为0.05和0.01这两个阈值,并选择p值小于阈值的特征输入分类器。
3.1.3.用于比较的分类器
我们最终在我们的模型中使用的分类器,即SVM,也与其他两个经典分类器,k-最近邻(KNN)[31]和(ELM)[32]进行了比较。利用网格搜索[27]对SVM中的参数进行优化,并对KNN和ELM中的参数进行经验设置,以获得最佳性能。从SVM中得到恶性肿瘤的概率,并选择0.5的阈值将样本分配为恶性肿瘤或良性[28,29]。
用于特征提取和分类的DL架构被命名为PGBM-RBM-⁄,其中后缀‘⁄’表示如SVM、KNN和ELM等分类器。当使用所有特征以及PCA和t-检验保留的特征作为分类器的输入时,用于特征提取和分类的SF模型分别命名为SF-⁄、SF-PCA-⁄和SF-TTEST-⁄。此外,我们比较了单层神经网络(只有PGBM,没有RBM),也称为浅层网络,与我们的两层架构(PGBM plus RBM),也称为深度网络。单层具有三个分类器的架构被命名为PGBM-⁄。总共有15个特征提取和分类模型进行比较。
3.2.敏感性和特异性
表2列出了5个测试集的平均分类结果。最佳模型为PGBM-RBM-SVM,准确率为93.4%,敏感性为88.6%,特异性为97.1%。图3为通过PGBM-RBM-SVM正确分类的SWE图像的典型样本。结果表明,乳腺肿瘤具有明显的多样性:良性肿瘤似乎主要覆盖均匀蓝色(即低和均匀弹性模量),而恶性肿瘤呈现丰富和混合颜色(即高和非均匀弹性模量),特别是在肿瘤的边缘,代表增加和异质硬度在瘤周组织,这被称为刚性边缘符号[33–35]。
无论将什么分类器连接到特征上(自动学习或手动提取),两层深度网络(PGBM-RBM)总是比单层浅层网络(PGBM)获得更大的精度、灵敏度和YIs(表2)。同时,ELM或SVM的单层网络在准确性、特异性和YI方面始终优于ELM或SVM的SF模型(表2)。
需要注意的是,当使用PCA或t-检验对SFs进行特征缩减时,表2中列出的分类结果是通过保留特征的最优数量得到的。我们发现ELM有30个主成分最好,KNN有80个,SVM有150个。采用t-检验进行特征选择时,p < 0.01的标准优于p < 0.05。常见的SFs,选择五次交叉验证p < 0.01,包括均值,中值、最大、标准差,第三四分位数,面积比,结合面积比,同质性和相关性在第二个轮廓水平,以及几个SFs来自第一个轮廓水平和原始图像域。
我们使用SVM分类器进一步比较了三种模型,即PGBM-RBM-SVM、PGBM-SVM和SF-PCA-SVM。受试者工作特征(ROC)曲线如图4所示,ROC曲线下面积(AUC)分别为0.947、0.928和0.902,表明PGBM-RBM-SVM具有优越性。
3.3.分类性能的统计测试
3.3.1.对5个交叉验证检验集的配对t检验
表3列出了分类性能指标的配对t检验的p值。在本实验中,随机重复6次,每种方法得到30个(即5个6)性能指标样本,使样本量足以得到配对t检验[36]的可靠结果。PGBM-RBM-SVM在四项指标方面均显著优于SF-PCA-SVM(p<0.05),在准确性和约登指数方面均显著优于PGBM-SVM(p<0.05)。PGBM-SVM在除敏感性外的所有指标上均显著优于SF-PCA-SVM(p<0.05)。
略
4. Discussion
略
5. Conclusions
我们提出了一个统一的DL架构,用于自动学习来自SWE图像的特征和分类乳腺肿瘤。实验结果表明,使用DL的数据学习特征在分类精度方面优于SFs,敏感性、特异性和YI。DL结构有可能被用于未来乳腺肿瘤的临床CAD。