Automatic cell segmentation in histopathological images via two-staged superpixel-based algorithms翻译

这是2018.09收录的一篇文章,关于用超像素的方法进行病理图像分割。
下面是翻译

摘要
从高分辨率数字组织病理图像中分析细胞特征是诊断和预后癌症标准的临床实践。然而,病理医生用这种方法手工检查细胞结构是一个相当累人的过程。将这一繁琐而耗时的过程自动化是组织病理学图像处理研究的新兴课题。本文提出了一种两级分割的方法来获得高维肾细胞癌组织病理图像的细胞结构。首先,使用简单线性迭代聚类(SLIC)方法将图像分割为超像素。然后,用最先进的基于聚类的分割算法对获得的超像素点进行聚类,找到组成细胞核的相似超像素点。此外,还比较了基于全局聚类的分割方法和基于局部区域的超像素分割方法。结果表明,与简单的单聚类分割算法相比,采用超像素分割算法作为预分割方法提高了细胞分割的性能。采用真阳性率(TPR)、真阴性率(TNR)、F-测量、精确度、覆盖率(OR)测度作为分割性能评价指标。文中还对算法的计算时间进行了评估,并给出了计算结果。

关键字 组织病理图像分析;细胞分割;SLIC;SLIC-DBSCAN;超像素

1 介绍

每年约有1400万人被专家诊断出患有癌症,其中800万人死于癌症或相关并发症。癌症的早期诊断对癌症的生存至关重要。随着技术的发展,使用技术设备进行诊断有助于许多疾病的早期诊断,并进一步有助于开始必要的 治疗。核磁共振(MRI)和计算机断层扫描(CT)是专家们经常使用的一种设备,因为它通过各种方式提供有关人体内部结构和功能的可靠信息。病理在早期癌症诊断中起着重要作用。病理预处理(染色等)后,病理医生在实验室检查疑似癌变组织。病理医生所做的这些检查包括通过对细胞结构、组织和器官的形态学和功能分析来诊断疾病。诊断最关键的过程之一是细胞结构的确定。癌变组织的细胞结构在形态学上不同于非癌变组织的细胞结构。对病理医生来说,逐一分析每个细胞结构是一个困难而耗时的过程。本研究的目的是利用成像设备和数字图像处理技术,使这一困难而耗时的过程自动化。这个过程称为计算机辅助诊断(CAD)。CAD的目的是通过分析计算机环境中数字化的组织病理图像,建立辅助决策支持系统,为早期诊断提供帮助。
近年来,对组织病理图像中细胞结构的分割进行了许多研究。这些研究使用基于簇、基于阈值和基于图论的算法进行。在[3]中,Al-Lahham等人提出了一种细胞结构分段的方法。首先将RGB图像转换为Lab颜色空间。然后,采用k-均值算法求解局部区域。最后,通过全局阈值化和一系列形态学操作来寻找细胞结构。在[31]中,Xu等人使用自适应阈值方法进行分割。然后通过观察椭圆曲线确定分割后的图像,寻找接近圆形的核。同样,Ld等人也提出了一种鲁棒方法,通过自适应滤波器观察椭圆曲线来检测细胞结构。
病理医生在检查活检得到的组织之前进行各种预处理操作,如固定、染色、分割和扫描。这些预处理越成功,细胞结构与细胞质和脂肪组织的区别就越明显。在这些预处理的任何阶段都可能发生各种各样的中断,从而导致各种类似于细胞结构伪影的形成。这些伪影会降低计算机辅助分析的分割成功率。当细胞结构在数字组织病理图像中被分割时,对平面上所有像素的全局评估可能会降低分割的成功率。另一方面,局部区域的分析可以提高分割性能,因为它有利于细胞结构与环境的差异。从这个角度来看,聚焦于图像局部区域的超像素方法变得非常重要。
超像素是一组根据亮度信息与邻域关系进行融合的像素。已经提出了几种超像素方法,在目标识别、遥感和目标跟踪方面都非常成功。Ochs等人提出了一种超像素分割方法,用于活动数据中的目标检测。引入了一种包含颜色、空间信息(xyz)和时间信息的距离度量方法。该方法在检测活动目标和前景目标时取得了较好的效果。在[22]中,孟等人提出了一种新的分割方法,从多幅图像中分割出常见的目标。然后,根据不同区域之间的相似性,构造有向图来表示它们之间的关系。在[24]中,Schick等人提出了一种基于概率超像素马尔可夫随机场的前景分割超像素方法作为后处理框架。提出了一种用于前景目标检测的鲁棒超像素方法。在这项研究中,超像素的使用提供了灵活的有效的中级线索。将目标周围的局部区域分割为超像素,并通过计算超像素与簇之间的距离,将置信值赋给超像素,形成置信图。
虽然超像素方法已经应用于一些生物医学图像处理领域,如脑MRI成像分割、视盘分割、青光眼筛查等,但在数字组织病理图像分析中,关于超像素方法的研究并不多见。组织病理图像分析中使用的超像素方法是区域分割,而不是细胞分割。在[5]中,采用了一种基于超像素的方法来分离乳腺组织图像的小片段。然后用支持向量机(SVM)分类器将每个小段的细胞核和细胞质分为上皮区和基质区。同样,基于超像素的SVM也被用于区分口咽鳞癌[4]的上皮区域和基质。在[2]中,提出了用于乳腺癌组织肿瘤定位的超像素分类算法。采用bag-of-words对空间信息进行整合。在[29]中,采用简单线性迭代聚类(SLIC)超像素算法作为结直肠图像分割的初始步骤。每幅图像被SLIC分割为168个超像素。然后计算这些超像素点之间的相似度指标,进行进一步的分析。最后,应用归一化图割算法将它们合并为一个段。超像素方法对这一区域的贡献是至关重要的,特别是当细胞结构被认为具有与其所在区域不同的特征时。
本研究旨在提出组织病理图像细胞分割领域的四个贡献:
(i)比较基于聚类的分割算法(平面内所有像素权重相等的全局聚类)和超像素分割算法(将局部区域的领域距离作为特征添加)的分割性能,
(ii)检验作为预分割算法的SLIC超像素分割方法对基于聚类的数字组织病理图像分割算法的效果,
(iii)比较著名的超像素分割算法的分割性能,
(iv)对全局聚类算法和超像素分割算法进行时间性能分析。

2 方法

在本节中,我们提出了两级分割的方法。本文首先介绍了基于聚类的分割方法和超像素分割方法。细节见第2.3节。

2.1 基于全局聚类的分割
2.1.1 k-均值聚类算法
k均值算法是一种无监督机器学习方法,用于对没有标签信息的数据进行分组。由于没有标签信息,它通过比较数据来根据它们的相似性进行分组。分组的数量由用户要输入的k个簇的数量决定。K-means算法的处理步骤如下:
在这里插入图片描述
2.1.2 模糊c均值聚类算法
模糊c均值(FCM)算法最早由Donn等人提出,Bozdek等人对其进行了改进。与k-means算法不同的是,它基于每一个待聚类的样本都属于某个特定位置的一个聚类中心的概率,而不是被精确地分配到一个聚类中心。模糊c均值算法的一般过程步骤如下:
在这里插入图片描述
2.2 超像素分割
2.2.1 简单线性迭代聚类(SLIC)算法
简单线性迭代聚类(SLIC)算法是Achanta等人提出的一种超像素分割算法。SLIC是一种基于k均值的算法,它通过考虑相邻像素的颜色和坐标信息来进行聚类。在该研究中,由于Lab对于小的颜色距离具有感知上的均匀性,因此将颜色空间转换为CIE Lab颜色空间。SLIC算法不能直接计算公式中颜色和坐标信息的欧氏距离,因为其中一个可能会对另一个产生负面影响。式1位相同特定网格尺寸下强度值的距离计算:
在这里插入图片描述
其中j为中心像素,i为待聚类值。dlab是对应像素到中心的距离。L、a、b分别表示像素的亮度值。式2还表示每个像素坐标到相关聚类中心的距离,
在这里插入图片描述
其中xj和yj为每个中心像素的水平和垂直坐标信息,xi和yi为每个待聚类像素的坐标信息。
在这里插入图片描述
ds的值为(x,y)平面距离和lab距离的和。这里进行归一化处理,使坐标信息的计算不直接影响亮度区间。定义m的值来设置超像素的紧度。
2.2.2 基于密度的简单线性迭代聚类
带噪声应用的空间聚类(SLIC-DBSCAN
SLIC-DBSCAN是一种基于密度的带噪声应用空间聚类的超像素分割算法。DBSCAN算法在分割不规则对象方面具有较大的潜力,可以生成更多规则的超像素。该算法利用SLIC超像素分割算法对图像中的像素进行融合,得到初始超像素。然后,将这些初始超像素合并得到最终段。该算法的成功是由于是用来DBSCAN作为一种分割算法,对相似的邻域超像素进行分组。DBSCAN算法通过增加局部几何边界来提高分割性能。
DBSCAN是一种基于测量给定对象(超像素)附近区域密度的聚类算法。在DBSCAN算法中,数据的分段有两个重要参数:epsilon and minimum points (MinPts)。epsilon参数表示围绕给定超像素中心包含超像素的圆的半径。称为x的ε-邻域。MinPts是在epsilon距离内超像素的最小值。图1演示了DBSCAN算法的简单逻辑。
在这里插入图片描述
不同类型的点(核心超像素、边界和离群值超像素)都包含在Fig。x是一个核心的点,因为x的邻居是6,y是一个边界点,因为y的邻居小于MinPts,但它属于核心点x的ε-邻域。Z是一个噪声点。采用初始SLIC算法对相邻像素进行合并。然后,如果位于特定区域,则将类似的超像素与核心超像素合并。
在平板中,任何一个像素如果有多个相邻的像素大于或等于“MinPts”,就称为“核心像素”。然而,x是边界点,如果它的邻居数小于MinPts。
2.2.3 拓扑保留正则超像素(TPRS)
采用拓扑保留正则超像素(TPRS)和熵率超像素分割(ERS)对细胞核进行分割。这是为了评估两种算法的分割性能,并将这些算法与所提出的方法进行比较。
TPRS是Tang等人提出的一种在显著性图像[28]中生成规则超像素的综合方法。它基本上由三个步骤组成:首先,初始种子排列在网格下,并与边界映射上的适当像素相关联。第二,每颗种子都是根据距离项和概率项重新定位到局部最大边缘大小的像素上。最后,分别在垂直方向和水平方向上生成各重定位种子的局部最优路径。该方法的细节在[28]中得到了很好的表达,并且该算法的源代码也是公开的。
2.2.4 熵率超像素(ERS)分割
熵率超像素分割是Liu等人提出的一种基于图的超像素分割方法。不像其他著名的超像素分割算法,如SLIC或SLIC-DBSCAN,ERSS试图找到紧凑的,同质的超像素使用基于图的方法。提出了一种新的图拓扑目标函数。该目标函数由熵速率和平衡项两部分组成。
2.3 细胞结构分割方法
K-均值和模糊c-均值算法假设图像中每个像素的红、绿、蓝强度值为特征(1x3特征向量-[R,G,B]),计算每个像素与聚类中心之间的欧氏距离。由于在基于全局的分割方法中只使用颜色信息,计算独立于坐标距离。因此,添加坐标信息作为特征可以提高分割性能。这就是超像素分割方法背后的冬季。在本研究中,我们提出一种结合这两种方法来分割组织病理图像中的细胞结构的方法。
在第一个实验中,采用k均值和模糊c均值方法得到分割结果,也就是众所周知的分割算法。k均值法和模糊c均值法假设平面上的所有像素具有相同的权重。因此,通过计算图像中与距离无关的所有像素值来评估这些算法的分割性能。因此,将超像素方法与这些算法进行比较是非常重要的。为了评价k均值算法和模糊c均值算法,在聚类前对数据集总的每一幅彩色图像进行5x5中值滤波。这一过程抑制了图像中的噪声像素,有助于实现更成功的分割。然后,对每幅彩色图像应用6个聚类中心的聚类算法。这一步将每个像素的红(R)、绿(G)、蓝(B)强度值作为分割过程的输入特征。然后对分割得到的图像进行形态学处理。消除了类似细胞结构的小伪影。该过程对k均值算法和模糊c均值算法都进行了处理。图2表示两种不同类型的肾细胞癌图像都是从数据集和直方图中提取的,这些图像的灰度都提到了像素的分布。
在这里插入图片描述
图2a所示的数字化图像不包含许多组织样结构。然而,在图2b中,有一些组织样结构(连接结构)可能会影响分割性能。图2c和d为这些图像灰度的直方图值。由于噪声和伪影的存在,在组织病理图像中应用三个簇的聚类分割算法并不一定能取得理想的分割效果。因此,增加簇的数量可以解决这个分割问题。总共有六个簇被认为是脂肪组织、结缔组织、细胞结构和细胞样、脂肪样和结缔组织样。FCM的参数“指数”和最大迭代次数分别设置为2和100.
在第二个实验中,验证超像素方法作为预分割方法对细胞分割的作用。图3显示了此阶段所遵循的处理步骤。与第一部分不同,本文采用k均值法和模糊c均值法对平面上的超像素点进行分割。为此,采用了Anchanta等人提出的超像素分割算法。图4表示(a)从数据集中得到的原始图像,(b)对该图像实现的超像素方法,©从图像中生成的超像素的聚类结果。假设每个核的平均面积为20x20,则最小超像素尺寸为10x10,约,可被选为图像分割的初始值。当对数据集中的所有图像进行检测时,4000个以上的超像素点对细胞结构的提取效果良好。在此基础上,对分割后的图像进行细胞结构提取,去除背景信息。
在这里插入图片描述
在这里插入图片描述
最后,如果分割图像的区域小于100个像素,那么与分割图像的细胞结构相似的伪影将被消除。100的值不大于ground truth细胞结构。将RGB颜色空间用于SLIC超像素分割算法,与k均值和模糊c均值进行公平比较。
在第三个实验中,研究了SLIC-DBSCAN、ERs和TPRS超像素分割算法在组织病理图像中的性能。与前两阶段相似,对彩色图像采用5x5窗口大小的中值滤波。对每一种超像素分割算法,对500~1500个超像素进行了经验检验。由于1000个超像素的分割效果最好,所以将其结果表示出来进行比较。在SLIC-DBSCAN中,颜色与空间差异的权重因子(m)确定为30.m值越大,超像素越规则。合并区域的半径设置为1。小于半径的区域与相邻区域合并。生成的超像素被更新为包含像素的平均信息。然后剔除亮度值大于阈值130的超像素。
ERS和TPRS算法也与其他分割算法进行了比较。对ERS和TPRS超像素方法也采用了类似的处理步骤。首先,用5x5中值滤波对得到的图像进行平滑处理。然后,对ERS和TPRS分别将平滑后的图像分割为1500和3500个超像素。在细胞分割中使用这样的超像素方法时,需要注意的一点是,超像素数量不足可能会降低分割性能。在这种情况下,由于超像素的数量超过了一定数量,所以分割并不会显著影响性能。然后,将值低于80的超像素作为细胞结构,其余为非细胞结构(背景信息)。最后,消除了类似于细胞结构的伪影。

3 结果
3.1 数据集描述
本研究使用的数据集来自哈佛大学贝克实验室。数据集由高分辨率的肾细胞癌组织病理图像组成,这些图像选自癌症基因组图谱(TCGA)数据门户网站,可公开使用。有810例高分辨率400x400,病理组织图像为10例肾细胞癌。图像用40x显微镜扫描。TCGA是由美国国家癌症所和美国国家人类基因组研究所资助的一个大型癌症研究机构。此外,TCGA还开展调查,寻找25种最常见的癌症的解决方案。TCGA除了收集分子和临床数据外,还获得了肿瘤研究下的全幻灯片图像(WSI)。图5表示从数据集中获取的样本图像,以及由这些图像的病理学家注释的ground truth图像。数据集在[14]中介绍。
在这里插入图片描述
3.2 性能度量
将分割结果与病理医生标记的ground truth图像进行比较。用于评价片段注释的分割指标包括:真阳性(TP)、真阴性(TN)、假阳性(FP)、假阴性(FN)、精确度和召回率。真阳性表示细胞结构区域内正确标记为阳性样本的像素数,真阴性表示细胞结构区域外标记为阴性的像素数。假阳性和假阴性分别对应细胞结构区域外标记为阳性的像素数和位于细胞结构区域内标记为阴性的像素数。式4为精确度,即TP值与真预测之比。
在这里插入图片描述
TPR(召回率)为TP与实际类中所有观测值之比,计算公式5.
在这里插入图片描述
精度和TPR应同时使用,以说明评估方法的总体性能。因此,式6表示F-measure(F-M),即精度和召回率的调和平均值。
在这里插入图片描述
真阴性率表示正确识别的负荷率
在这里插入图片描述

式8为覆盖值,即分割后的输出图像与ground truth的交集与分割后的图像与ground truth的结合之比。
在这里插入图片描述
其中A(S)为分割后图像的面积,A(G)为ground truth区域。
3.3 评估
图6所提方法的(a)精度,(b)召回率,(c)f-measure值,(d)覆盖比,采用SLIC算法作为预分割算法,k-means作为后分割算法。横轴表示从2k(2000)到20k(20000)的超像素数量,纵轴表示随超像素数量变化的度量。在图6a中,三个聚类中心的精度之最低。精度值随着聚类中心数量的增加而增加。图6b表示召回值随超像素数量的变化。在这种情况下,三个簇中心的召回值最大,召回值随着簇中心数量的增加而减小。仅获得较高或较低的精度值和召回率不足以评估分割性能。将精度和召回率相结合,比使用单个参数对分割效果更好。因此,使用精度和召回率的调和均值,也成为f-measure来进行评价。根据图6c,用4个均值聚类6000个或更大的超像素,得到最佳的f-measure值。从图中可以看出,由于超像素消除了像素的局部方差,使用超像素作为预分割算法可以减少簇使用,提高分割性能。从图6可以看出,与其他结合相比,4个簇6000超像素的覆盖率也是最好的。
SLIC超像素算法对超像素的规律性具有紧致性。图7为不同紧度值下所提算法的分割性能,评估紧度的效果。首先,我们尝试了从1到20的紧度值,就像[1]中提到的那样,但是没有发现可以接受的变化。M的低值不影响强度和坐标值的距离,这在式2,就这么多。虽然m值非常大会导致召回率、f-measure和覆盖率降低。
在这里插入图片描述
由表1可知,k-means算法将细胞结构估计为细胞的精度为60.00%,非细胞结构包括脂肪和血液组织,分割率为97.4%.另一方面,模糊c均值算法分割细胞结构的成功率为60.14%.模糊c均值对非细胞结构的分割成功率为97.3%.虽然两种算法的性能基本相同,但与k均值算法相比,模糊c均值算法的计算速度相对较慢。
在这里插入图片描述
七种算法的分割结果如表1所示。从左到右,列分别显示了分割算法的真阳性率(TPR)、精度、F-measure、真阴性率、覆盖率和时间性能值。从本研究中应用的7中算法的结果可以看出,SLIC+FCM、SLIC+DBSCAN、SLIC+K-means均取得了最好的性能结果,均取得了63.7%~65%的F-M分数。单一k均值和FCM算法性能较差,F-M得分为61.5%.采用SLIC算法作为预分割方法,提高了算法的TPR、F-M、覆盖和时间性能。结果与Irshad等的结果也具有可比性(图8)。
在这里插入图片描述
表1中的性能标准基于发表数据集的论文中的性能标准,因此,TPR表示将细胞区域预测为细胞的系统性能。另一方面,TNR表示系统没有标记为细胞的像素知识,也没有标记为ground truth中的细胞。
3.4 计算时间评估
实验是在一台配备4.0-GHz 英特尔酷睿i7-6700K和48GB RAM。所有的7种算法都只在CPU实现,MATLAB 2016a.超像素分割每幅400x400的图像需要0.1秒。所有计算都在表1的最后一列中表示。单一k均值算法将数据集中的所有图像聚类在60秒内。在k均值之前应用SLIC超像素算法,计算时间缩短到20秒。与k均值相比,FCM算法速度较慢。因为不是直接将标签分配给候选像素,而是为每个候选像素计算一个成员函数。这是一个费时的过程。与k均值算法相似,在FCM算法之前应用超像素降低了时间复杂度。根据超像素分割算法的复杂度,某些超像素分割算法的性能可能优于全局聚类算法。SLIC+DBSCAN算法比FCM和SLIC+FCM算法执行速度快,但它比k均值和SLIC+K均值算法要慢。
4 讨论
本研究旨在利用SLIC超像素分割方法作为预分割方法,为高分辨率组织病理图像的细胞分割过程做出贡献,并将该算法的性能与其他著名的超像素分割算法进行比较。采用SLIC作为预分割算法,提高了目前最先进的基于聚类的分割算法的分割性能。并将SLIC-DBSCAN、ERS和TPRS超像素方法的结果与目前最先进的基于聚类的分割算法k均值和模糊c均值的结果进行了比较。选择ERS和TPRS作为分割算法,因为它们都是最著名的超像素分割算法之一,使用不同的算法来寻找超像素。ERS是一个基于图的超像素分割算法,TPRS是一种基于熵的超像素分割算法。在本研究中,我们也旨在展示这些超像素分割算法的分割性能,为研究组织病理图像分割的研究人员。根据本研究的结果,与基于聚类的分割算法相比,超像素方法在高分辨率组织病理学图像中的分割性能时成功的。结果表明,与k均值和FCM相比,采用SLIC超像素算法对组织病理图像进行聚类,提高了分割性能和计算时间。给出了基于超像素分割算法参数的分割性能。与引入数据集的研究结果相比,采用超像素分割方法得到的结果提高了细胞分割性能。采用TPRS和ERS方法进行比较,确定超像素分割方法的分割性能。在ERS和TPRS方法中,将给定的图像分割到一定数量的超像素以下可能会对分割性能产生负面影响。相反,选择多个大于某个值的超像素并不会显著影响分段性能。如2.3节所述,每个超像素的初始面积应小于平均核面积。并对ERS方法和TPRS方法的时间性能进行了比较。ERS比FCM、SLIC+FCM和SLIC+DBSCAN算法更快。然而,TPRS算法时所有七种算法中最慢的,因为它的性能取决于预先计算的边界图的质量。
5 结论
本研究探讨超像素算法在高分辨率组织病理图像中对细胞分割的贡献。本研究包括两个部分:首先,使用SLIC超像素算法作为预分割算法,并使用SLIC+DBSCAN超像素算法作为现有基于聚类的分割方法的替代分割算法。采用SLIC超像素算法作为预分割算法,提高了k均值和模糊c均值的分割性能。组织病理图像主要包括脂肪组织、结缔组织和细胞结构。因此,基于聚类算法的最优聚类数为3。然而,在扫描图像并将其传输到计算机环境中,会出现各种各样的伪影。这些会导致图像有三个以上的片段。
本研究以k均值和模糊c均值六个聚类为研究对象,得到了最佳的结果。详细情况在第3节第一部分中作了说明。采用SLIC超像素分割算法的优点是平滑了相邻像素的局部方差,消除了伪影。这有助于k均值和模糊c均值对聚类中心较低的分割图像进行聚类。减少簇中心的数量也会减少计算时间。结果表明,在使用基于聚类的算法之前,先使用SLIC算法作为预分割算法,而不是单独使用单一聚类算法对数据进行分割,从而提高了分割性能。应用SLIC+DBSCAN超像素算法,获得了超像素算法的分割性能。此外,将超像素算法对癌症基因组图谱(TCGA)数据集获得的肾细胞癌高分辨率组织病理图像的效果与最著名的基于全球的聚类算法k均值和模糊c均值进行了比较。
将TPRS和ERS与SLIC+DBSCAN进行比较,这些算法的主要优点时它们不是超参数的。然而,TPS的主要缺点是性能,这取决于预先计算的边界映射的质量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值