SIPAKMED: A NEW DATASET FOR FEATURE AND IMAGE BASED CLASSIFICATION OFNORMAL AND PATHOLOGICAL CERVICAL CELLS IN PAP SMEAR IMAGES
SIPAKMED:基于特征和图像的子宫颈抹片正常和病理宫颈细胞分类的新数据集
目录
摘要
巴氏涂片图像中子宫颈细胞的分类是一个具有挑战性的任务,因为这些图像的展现具有局限性以及细胞结构部分形态变化具有复杂性。此过程非常重要,因为它为检测癌变或癌前病变提供了基本信息。为此,已经提出了几种算法,以对这种图像中的正常和异常细胞进行分类。但是,每个研究小组通常都会创建自己的图像数据集,这是一种普遍现象,因为构建良好的数据集未公开。为了克服这一障碍并协助该领域的研究进展,我们提供了带标记的巴氏涂片图像数据库,其中根据细胞的形态特征将细胞分为五类。专家手动定义每个图像中的细胞质和细胞核面积,并针对每个感兴趣区域计算强度,纹理和形状的显着特征。已经对这些图像的分类进行了一些实验,其中包括基于特征和基于图像的分类方案。在这个方向上,测试了基于支持向量机和深度神经网络的方法,并提出了每个分类器的性能,以构成评估未来分类技术的参考点。
关键词——巴氏涂片图像,子宫颈类细胞分类,细胞图像数据库,细胞特征,卷积神经网络
1.引言
巴氏涂片图像的自动解释是细胞学图像分析中最有趣的领域之一。这是一个至关重要的问题,它结合了数字图像处理的多个方面,例如图像增强,伪影限制,对象分割,重叠单元格的描绘等。为了自动检测这些图像中的感兴趣区域,已经做出了很多努力,并且它们包括几种技术[1,2,3]。
另外,集成的巴氏涂片图像分析包括基于图像特征的图像分类。巴氏涂片图像中宫颈鳞状细胞的细胞形态学分类对于准确诊断和检测癌性或癌前病变非常重要。通常,为这些图像的自动分类建议的方法需要单个细胞的图像,这些图像是从细胞簇中裁剪出来并进行进一步分析的[4,5]。据我们所知,包含单个细胞图像的唯一可用数据集是Harlev数据集[6],该数据集由有限数量(917)的图像组成。因此,一些研究人员创建了自己的带标记的图像数据集,以评估其方法的性能。但是,这些存在的、非公共的特定数据集的主要缺点是:它们是在单个数据集中进行评估的,难以比较不同分类技术的效率。
在本文中,我们介绍了新颖的公开可用的图像数据集SIPaKMeD,它由4049个带标注的细胞图像组成。根据细胞的细胞外观和形态,专家细胞病理学家将细胞分为五类。更具体地说,正常细胞分为两类(superficial-intermediate, parabasal)),异常但非恶性细胞分为两类(ilocytes and dyskeratotic),还有一类良性(间质性)细胞。我们数据库的每个图像,细胞质区域和细胞核都是手动标记的。在每个感兴趣的区域中,都会计算26个特征,以表征感兴趣区域的强度,纹理和形状。最后,我们使用基于特征和图像的分类方案提供评估结果,并对每个分类器的判别能力进行了一些说明。
2.SIPAKMED数据库
SIPaKMeD数据库由4049个分离的细胞图像(图1)组成,这些图像是从966个巴氏涂片的簇细胞图像中手动裁剪的,当然这些图像也包括在内。这些图像是通过适用于光学显微镜(OLYMPUS BX53F)的CCD相机(Infinity 1 Lumenera)获得的。表1中描述了类中各个单元的分配。在以下段落中,提供了每个类的简要说明。
2.1 正常细胞
这些是鳞状上皮细胞,其类型根据其在上皮层的位置及其成熟程度来定义。