Macula segmentation and fovea localization employing image processing and heuristic based clustering for automated retinal screening
背景
(待定)
图像特点
视网膜眼底图像包含视盘(OD)、血管、黄斑、中央凹和渗出物、出血等疾病结构。
由于黄斑是视力清晰而详细的区域,该区域的任何异常都可能显著影响视力质量。
黄斑是视网膜的中心区域。它的直径约为3到4毫米,与图像中的其他组件相比,它看起来很暗
黄斑的识别是基于它的特性,它是OD附近最暗的区域,也没有血管。
采用的方法
步骤
无监督的基于启发式的聚类算法
- 图像预处理所需工作:图像裁剪、绿色通道提取、对比度增强和数学闭合 mathematical closing
- 对预处理得到的图像进行启发式聚类,得到二值映射。
- 对二值图像进行后处理,以消除不需要的组件。最后,最终确定具有最小强度的成分为黄斑,其中心构成中央凹
特点
本文所提及的方法因为OD(视神经盘)和血管的导向的方法有所不同而区别开来
使用的数据集
根据1R criterion如果所获得的中心凹中心位置与真实的中心凹中心位置之间的距离小于OD半径的一倍,那么该中心凹中心位置是正确的和可接受的。这叫做1R准则
- HRF
- DRIVE
- DIARETDB0
- DIARETDB1
- HEI-MED
- STARE
- MESSIDOR
现有的方法分类
通过OD、血管区分
- 只采用OD提取。
- 主成分分析和活动轮廓模型。
- 直接将边缘区域较暗部分直接祛除以提高模型的准确度。
- 先定位黄斑区域,然后计算中央凹,计算中央凹和血管的聚类如果足够远则保留,不断迭代直至集合只有一个中央凹。
- 基于OD和血管获取中央凹的候选区域,对该候选区域实施特征提取来找到中央凹中心。
- 快速径向对称技术已被用来寻找亮、暗的圆形分量。随后,在血管密度的背景下,人们利用眼底图像的双侧对称性来识别黄斑
不基于OD和血管的区分
基于对比度处理
- 在这种情况下,中央凹和周围环境之间的对比通过相对减法增强,使黄斑清晰区分。(对比度增强的灰度图像-对比图像增强红色通道)对结果进行了两级对比度增强,即迭代对比度增强和单通对比度增强。
- 随后提出了另一种获取差分图像的方法。在该技术中,在绿色通道图像和中值滤波后的绿色通道图像之间进行差分运算(疑惑:这是什么样的计算,能得到什么样的结果)。通过模拟退火优化,选择了中值滤波器的滤波器尺寸。
基于解剖学先验知识
- 通过以OD中心为顶点的抛物线模型构造水平中缝,它被用于血管来估计黄斑中心。中央凹中心估计位于这条线的OD中心2.5DD。红色和绿色通道进行H-minima运算,以消除浅暗区域。对结果进行阈值处理,得到中央凹区域。现在,如果所得到的分量的圆度小于0.25,则圆度最小的分量的质心被更新为最终的中心凹中心。
基于深度学习的识别
- 使用深度学习的方法检测来自NIHAREDS数据集的5000张图像中的年龄相关性黄斑变性,准确率为92%
各自优劣
- 基于OD、血管先验知识的分割方法计算复杂而且容易出错。
- 在数据挖掘领域来看,有监督地学习总比无监督的学习表现要好。
详细过程
数据预处理
- 图像裁剪:将图像的上1/4和下1/4裁剪,因为黄斑所处的位置不在边缘。
- 提取RGB图像的绿色通道。(提取绿色通道的原因是对比度较高,比较好分割)
- 对提取过后的图像使用CLAHE程序继续进行对比度增强。
- 带来的问题,因为血管和黄斑区域有着相似的特征,进行增强以后,血管也会被增强。可以利用二者的直径差异来解决这个问题 - 进行Mathematical Closing操作当结构元素大于血管的宽度,但小于黄斑的宽度的时候,我们保留该元素,不然就会使用周围明亮元素填充该元素,在一开始,黄斑的边缘区域也会被填充但是在随后的侵蚀操作结束的时候,黄斑区域会恢复。
数据挖掘
- 将数据分为背景和黄斑的候选区域,聚类中心的选取极大的影响了聚类的效果。
- 聚类中心的选取存在如下几种方法,(i)随机选择所有的聚类中心。(ii)随机选择一个中心,使用启发式算法计算其他中心 。(iii)使用启发式算法选择所有的中心。 - 本文采取了第三种方法选择中心,引入了最小值、中值、平均值、最大值和偏斜等参数进行划分。
- 所提出的聚类算法首先选择第一个聚类中心,然后选择第二个聚类中心,然后将其他实例分成两组,其距离较小,从而保持较高的簇内相似性和较低的簇间相似性。(疑问:这样如何保证有一个聚类在黄斑内?)
- 本文所提出的基于启发式的聚类方法非常适合于数据被期望被分成两组的情况。此外,当涉及偏斜的概念时,属性应该是连续值。
选择第一个聚类中心的数学公式:
此处数学公式理解有误,需要再读
-
S
t
e
p
1
计
算
每
个
A
j
的
倾
斜
度
Step1 计算每个Aj的倾斜度
Step1计算每个Aj的倾斜度 疑问:这里的
A
j
A_j
Aj代表的涵义是什么?这里所计算的偏斜又是谁的偏斜是像素块的偏斜还是图像相对于图像整体的偏斜
s k e w ( A j ) = 1 / n ∗ ∑ i = 1 n ( x i − μ ) 3 / 1 / n ∗ skew(A_j)=1/n*\sum_{i=1}^n(x_i-\mu)^3/1/n* skew(Aj)=1/n∗∑i=1n(xi−μ)3/1/n∗
μ 是 数 据 的 均 值 , n 则 是 样 本 的 数 量 \mu是数据的均值,n则是样本的数量 μ是数据的均值,n则是样本的数量
e n t i r e s k e w = ∑ j = 1 m s k e w ( A j ) entireskew=\sum_{j=1}^mskew(A_j) entireskew=∑j=1mskew(Aj)
m 代 表 的 是 维 度 m代表的是维度 m代表的是维度
从这边来看, A j A_j Aj是单个图像的偏斜。不是单个图像的偏斜 ,是一个像素点的偏斜,然后entireskew是整体的偏斜是整体特征的偏斜
偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧 -
S
t
e
p
2
找
到
所
有
属
性
同
第
一
个
属
性
的
协
方
差
Step2 找到所有属性同第一个属性的协方差
Step2找到所有属性同第一个属性的协方差
c o v ( A 1 , A j ) = 1 / ( N − 1 ) ∑ i = 1 N ( A 1 i − μ A i ) ∗ ( A j i − μ A j ) cov(A_1,A_j)=1/(N-1)\sum_{i=1}^N(A_{1_i}-\mu_{A_i})*(A_{j_i}-\mu_{A_j}) cov(A1,Aj)=1/(N−1)∑i=1N(A1i−μAi)∗(Aji−μAj) - S t e p 3 构 造 最 小 特 征 向 量 , 对 于 其 偏 斜 为 正 或 者 0 的 选 择 最 小 值 , 对 于 其 偏 斜 为 负 的 选 择 最 大 值 , 最 小 特 征 向 量 的 第 i 个 位 置 的 值 是 由 第 i 个 属 性 同 第 一 个 属 性 计 算 出 来 的 协 方 差 构 成 。 Step3 构造最小特征向量,对于其偏斜为正或者0的选择最小值,对于其偏斜为负的选择最大值,最小特征向量的第i个位置的值是由第i个属性同第一个属性计算出来的协方差构成。 Step3构造最小特征向量,对于其偏斜为正或者0的选择最小值,对于其偏斜为负的选择最大值,最小特征向量的第i个位置的值是由第i个属性同第一个属性计算出来的协方差构成。
- S t e p 4 计 算 图 片 中 每 个 像 素 所 形 成 的 特 征 向 量 的 欧 氏 距 离 , 并 且 根 据 其 与 最 小 特 征 向 量 的 欧 式 距 离 升 序 排 列 Step4 计算图片中每个像素所形成的特征向量的欧氏距离,并且根据其与最小特征向量的欧式距离升序排列 Step4计算图片中每个像素所形成的特征向量的欧氏距离,并且根据其与最小特征向量的欧式距离升序排列
- S t e p 5 选 择 具 有 最 小 、 中 值 和 最 大 距 离 的 实 例 作 为 第 一 个 集 群 中 心 ( C F C C ) 的 候 选 实 例 。 Step5 选择具有最小、中值和最大距离的实例作为第一个集群中心(CFCC)的候选实例。 Step5选择具有最小、中值和最大距离的实例作为第一个集群中心(CFCC)的候选实例。
- S t e p 6 对 于 第 一 个 聚 类 中 心 候 选 集 合 的 每 个 实 例 I , 计 算 剩 余 实 例 的 偏 态 r e m s k e w ( I ) Step6 对于第一个聚类中心候选集合的每个实例I,计算剩余实例的偏态remskew(I) Step6对于第一个聚类中心候选集合的每个实例I,计算剩余实例的偏态remskew(I)
- S t e p 7 计 算 d i f f ( I ) = e n t i r e s k e w ( I ) − r e m s k e w ( I ) Step7 计算diff(I)=entireskew(I)-remskew(I) Step7计算diff(I)=entireskew(I)−remskew(I)
- S t e p 8 拥 有 最 大 的 d i f f ( I ) 的 A i 将 会 作 为 第 一 个 聚 类 的 中 心 Step8 拥有最大的diff(I)的A_i将会作为第一个聚类的中心 Step8拥有最大的diff(I)的Ai将会作为第一个聚类的中心
选择第二个聚类中心的计算公式:
- S t e p 1 建 立 一 个 平 均 特 征 向 量 , 并 且 找 一 个 接 近 的 实 例 作 为 平 均 实 例 Step1 建立一个平均特征向量,并且找一个接近的实例作为平均实例 Step1建立一个平均特征向量,并且找一个接近的实例作为平均实例
- S t e p 2 建 立 第 二 个 聚 类 中 心 的 候 选 集 , 当 第 一 个 聚 类 中 心 为 最 小 特 征 向 量 的 时 候 , 如 果 该 数 据 集 的 偏 斜 为 正 或 者 0 , 则 将 m e d i a n 到 m a x 的 实 例 加 入 候 选 集 , 如 果 该 数 据 集 的 偏 斜 为 负 , 则 将 m e a n 到 m a x 的 实 例 加 入 候 选 集 。 当 第 一 个 聚 类 中 心 为 最 大 特 征 向 量 的 时 候 , 如 果 该 数 据 集 的 偏 斜 为 正 或 者 0 , 则 将 m i n 到 m e a n 的 实 例 加 入 候 选 集 , 如 果 该 数 据 集 的 偏 斜 为 负 , 则 将 m i n 到 m e d i a n 实 例 加 入 候 选 集 。 当 第 一 个 聚 类 中 心 为 中 值 的 时 候 , 如 果 数 据 的 偏 斜 为 正 或 者 0 , 则 将 m e a n 到 m a x 的 实 例 加 入 候 选 集 合 , 如 果 偏 斜 为 负 数 , 则 将 m i n 到 m e a n 加 入 候 选 集 Step2 建立第二个聚类中心的候选集,当第一个聚类中心为最小特征向量的时候,如果该数据集的偏斜为正或者0,则将median到max的实例加入候选集,如果该数据集的偏斜为负,则将mean到max的实例加入候选集。当第一个聚类中心为最大特征向量的时候,如果该数据集的偏斜为正或者0,则将min到mean的实例加入候选集,如果该数据集的偏斜为负,则将min到median实例加入候选集。当第一个聚类中心为中值的时候,如果数据的偏斜为正或者0,则将mean到max的实例加入候选集合,如果偏斜为负数,则将min到mean加入候选集 Step2建立第二个聚类中心的候选集,当第一个聚类中心为最小特征向量的时候,如果该数据集的偏斜为正或者0,则将median到max的实例加入候选集,如果该数据集的偏斜为负,则将mean到max的实例加入候选集。当第一个聚类中心为最大特征向量的时候,如果该数据集的偏斜为正或者0,则将min到mean的实例加入候选集,如果该数据集的偏斜为负,则将min到median实例加入候选集。当第一个聚类中心为中值的时候,如果数据的偏斜为正或者0,则将mean到max的实例加入候选集合,如果偏斜为负数,则将min到mean加入候选集 这边原理还存疑惑,为什么这里面为什么要这么添加?\
- S t e p 3 对 于 每 一 个 候 选 集 中 的 实 例 , 移 除 该 实 例 , 并 计 算 其 余 实 例 的 偏 斜 r e m s c c s k e w ( I ) , 并 且 计 算 实 例 I 和 第 一 个 聚 类 中 心 的 欧 氏 距 离 d ( I ) 和 协 方 差 c v ( I ) 。 然 后 计 算 启 发 式 的 衡 量 标 准 : M e t r i c ( I ) = d ( I ) ∗ c o v a r ( I ) / ( s k e w f c − r e m s c c s k e w ( I ) ) Step3对于每一个候选集中的实例,移除该实例,并计算其余实例的偏斜remsccskew (I),并且计算实例I和第一个聚类中心的欧氏距离d(I)和协方差cv(I)。然后计算启发式的衡量标准:Metric(I)=d(I)*covar(I)/(skewfc-remsccskew(I)) Step3对于每一个候选集中的实例,移除该实例,并计算其余实例的偏斜remsccskew(I),并且计算实例I和第一个聚类中心的欧氏距离d(I)和协方差cv(I)。然后计算启发式的衡量标准:Metric(I)=d(I)∗covar(I)/(skewfc−remsccskew(I))
- S t e p 4 最 高 的 M e t r i c 将 会 被 选 为 第 二 个 聚 类 的 中 心 Step4 最高的Metric将会被选为第二个聚类的中心 Step4最高的Metric将会被选为第二个聚类的中心
- S t e p 5 根 据 两 个 固 定 的 中 心 , 将 会 建 立 一 个 二 值 映 射 的 图 像 。 Step5 根据两个固定的中心,将会建立一个二值映射的图像。 Step5根据两个固定的中心,将会建立一个二值映射的图像。
在这之后还需要做一些处理,后处理阶段最初消除了偏心度高于0.95的成分。然后,视场外的背景也呈现黑暗,因此被选择为黄斑的候选者。这些区域都被消除了。(这一步骤限制了在非以黄斑为中心的图像中识别黄斑。)这里是否可以考虑进一步优化
在剩余的分量中,将每个分量叠加在绿色通道图像上,找到每个分量对应的最小强度。选择对应于最小强度最小的分量作为黄斑。