Classification Beats Regression: Counting of Cells from Greyscale Microscopic Images based on Annotation-free Training Samples
Abstract:
背景:计算(灰度显微镜下的)细胞数量通常被视为回归问题,通常多多少少以来昂贵/耗时/耗事的人工标注数据集。
我们的工作:我们提出了一个监督学习框架/机制,基于面向分类的CNN网络来计算显微镜下、细胞灰度图像,同时不需要人工标注的数据集。
我们的框架/机制:将细胞计数视为类别标签。(In this framework, we formulate the cell counting task as an image classification problem, where the cell counts are taken as class labels)
缺点:具有局限性,子啊某些细胞未能出现,同时未能利用细胞计数之间的顺序关系。
答案:我们提出了简单有效的方法——数据扩充。利用合成图像来得到那些看不到的目标细胞。
Introduction:
背景:在现代模型通常来说,我们将显微镜图下细胞技术视为回归问题。回归模型可以被广泛的视为两个步骤1:提取特征2:利用提取的特征进行回归,同时这种回归模型需要人工标注图像用于训练阶段。
缺点:这种基于回归的方法具有较大的缺点,比较难做出精准的预测。预测值与真实值相比通常会出现偏移。
我们的方法:我们不再使用回归的方法来计算细胞数量,我们通过细胞计数问题视为分类问题之一,将细胞计数作为分类标签。
优点:1:我们不需要人工注释数据集 2:只要测试图像被成功分类,预测数量的错误会很低很低。
缺点:使用视为分类的方法也仍然有自己的局限性,这也解释了为什么现代计数模型通常会使用回归来计数;第一:如果在测试图像中没有看到训练图像,这将不可避免的产生错误;第二,由于面向分类的CNN没有使用细胞计数的顺序信息,即使说在测试中分类误差较小但是在预测细胞数量和真实数量的差距较大。
我们的贡献:
我们的这个框架可以做到一个数据增强,合成我们看不到的细胞图像;同时我们还使用了顺序信息来避免的预测错误。
Method:
overview概述
本节中我们提出了一种新颖的框架来从灰度显微镜图像中计数细胞。
我们将细胞计数问题来表述为分类问题,将细胞的计数作为类别标签。然后我们使用现代分类CNN作为backbone,从灰度图像来预测细胞计数。我们还提出了两种方法来介绍这种方法所带来的局限性(我们的这个框架可以做到一个数据增强,合成我们看不到的细胞图像;同时我们还使用了顺序信息来避免的预测错误。)
e
训练阶段和测试阶段的流程图如上图所示
Counting Cells by Classification-oriented CNNs
作为框架的骨架,我们计数通过面向分类的Resnet,经过训练可以使cross entropy最小化。
Resnet将灰度显示图像作为输入并输出细胞计数。为了区分面向回归/面向分类的resent,我们将本文中所有的resnet都表示为Resnet XX(YY),其中XX和YY分别表示卷积层或线性层的数量以及损失函数。For example, the ResNet-34 (MSE) and ResNet-34 (CE)
A Simple But Effective Data Augmentation
如果我们知道那些测试图像未出现在训练图像中,我们就可以提出一种简单而有效的方法;
An example of creating a synthetic image with 15 cells by overlaying two real images from Tiny-BBBC005 with 5 and 10 cells respectively is shown in Fig. 2 and the synthetic image (i.e., Fig. 2©) with 15 cells looks very realistic.
通常来说,除了上述方法,我们还能使用如下的公式例如For example, to create 15-cell images, we can use the following formulae:
15 = 1 X(15), 15 = 1 X (5) + 10 X (1), 15 =5 X (1) + 10 X (1), 15 = 1 X (10) + 5 X (1), etc.
Ensembling Classification and Regression Methods
为了提高我们框架的预测准测性,我们提出了一个组合方案
为提高精度,我们使用了面向分类的Resnet针对了看不见的细胞, 高稳定性使用面向回归的Resnet针对看得见和看不见的细胞。
图三a暗示了平均强度和细胞之间的线性关系
图三b暗示了平均强度和细胞之间的二次回归关系,从而可以得出平均强度大/小==》细胞数目的关系
我们拟合了两个线性回归模型,红色/绿色回归线。
通过这种关系我们先计算平均强度,预测线性/二次回归得到预测的上线和下限,从而得出置信区间;
优势:减小了看不见的对Resnet CE的影响;利用置信区间而得到顺序信息,可以保证Resnet不会出错