Watersheds for Semi-Supervised Classification

最新推荐文章于 2024-09-15 15:29:29 发布

lovely_smile

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量129

点赞数

文章标签：人工智能机器学习算法计算机视觉

原文链接：https://ieeexplore.ieee.org/document/8667657

版权

来源：IEEE SIGNAL PROCESSING LETTERS, VOL. 26, NO. 5, MAY 2019
作者：Aditya Challa , Sravan Danda , B. S. Daya Sagar ,and Laurent Najman

摘要：

数学形态学（MM）中的分水岭技术是一种应用广泛的图像分割算子。最近，分水岭被用于边加权图，使得适用性更广泛。然而，仍有一些问题有待解决——分水岭算子在边界处表现如何?分水岭算子应该优化哪个损失函数?分水岭算子如何与机器学习的现有理念相关联？本文提出了一个框架来回答这些问题。通过将最大间隔原则推广到最大间隔划分，提出了一种可实现最大间隔划分的通用方案MORPHMEDIAN。分水岭形成了一类特定的MORPHMEDIAN分类器。利用集成技术，分水岭也可扩展为集成分水岭。与文献中的已有的相关方法比较结果表明，分水岭的性能在某些数据集上优于支持向量机，而集合分水岭性能一般都优于随机森林分类器。

引言

分水岭算法是一种基本数学形态学分割算法，已有研究将分水岭扩展到边加权图，并对其与最小生成树的联系进行了论述。对任意种子点，MST-分水岭算法如下：
输入：有限边的边加权图G=（V，E，W）及部分标注种子点S。
输出：顶点划分
分水岭算法已被用于图像分类及其他相关数据分析算法。有研究使用相关的图像森林变换用于监督分类，有研究使用分水岭和CNN在CREMI挑战取得最好性能。此外，分水岭也是较先进的分割技术COB的一部分。广义上讲，分水岭属于监督分类算法。但仍存在一些问题：（1）当分水岭作为分类器时，边界性能如何？（2）分水岭优化应采用什么损失函数？（3）分水岭与已有的机器学习思想之间如何联系？
本文的主要贡献：（1）将最大间隔原则框架扩展到使用不相似度衡量的集合（2）提出了简单的分类器MORPHMEDIAN，并证明该分类器返回最大间隔划分（3）证明了分水岭是MORPHMEDIAN的一种特殊案例，将分水岭解决的优化问题视为分类器（4）使用集成技术，将分水岭扩展为集成分水岭（5）分水岭、集成分水岭及相关方法在数据集上的性能进行比较

最大间隔划分和MORPHMEDIAN

对于G的顶点集V，使用 $\rho(x,y)$ 表示顶点x和顶点y之间的不相似性，顶点集合X和Y之间的不相似性定义为 $\rho(X,Y)=\min\limits_{x\in X,y\in Y}\rho(x,y)$ .
全体顶点集 $V=M_0 \cup M_1$ 。
标注为1的顶点集 $X_1$ 和标注为0的顶点集 $X_0$ 分别为 $W_1$ 和 $W_0$ 的子集且两者不相交。
标注为0的顶点x与集 $M_1$ 的间隔可定义为 $\rho(x,M_1)$ 。
标注为0的顶点子集 $X_0$ 与标注为1的顶点集 $M_1$ 的间隔可定义为 $\rho(X_0,M_1)$ ,
标注为1的顶点子集 $X_1$ 与标注为0的顶点集 $M_0$ 的间隔可定义为 $\rho(X_1,M_0)$ .
我们对最大间隔划分的定义如下： $(V,\rho)$ 为使用 $\rho$ 不相似性度量的点集，点集 $X_0$ 、 $X_1$ 分别为标注为0和标注为1的顶点子集且 $X_i\in M_i,i=0,1$ 。划分 $V=M_0\cup M_1$ 为最大间隔划分，当且仅当 $min\{\rho(X_0,M_1),\rho(X_1,M_0)\}$ 最大时。
我们所提出的分类器MORPHMEDIAN定义如下：
1）当 $\rho(X_0,x)<\rho(X_1,x)$ 时， $x\in M_0$ ;
2）当 $\rho(X_0,x)<\rho(X_1,x)$ 时， $x\in M_0$
依据1）、2）得到的划分 $V=M_0\cup M_1$ 被称为MORPHMEDIN划分。
ps：在边界处，即 $\rho(X_0,x)=\rho(X_1,x)$ 处，点可以被任意标注为0或1.
定理：每个MORPHMEDIAN划分均为最大间隔划分。

分水岭用于半监督分类

对 $\in V,\rho_{max}(x,y)=\min \limits_{\pi \in \Pi(x,y)}\max \limits_{e\in \pi}W(e)$ ,其中， $\Pi(x,y)$ 为图G中x到y间的所有路径集合，e为路径 $\pi$ 上的边。 $\rho_{max}(..,..)$ 被称为pass value，用来反映从x到y必须移动的最小高度。基于此，我们有以下定理：
对于边加权图G=（V，E，W），MSF-watershed返回一个在 $(V,\rho_{max})$ 空间的MORPHMEDIAN划分，该划分为 $(V,\rho_{max})$ 空间的最大间隔划分。
分水岭通过移除图中分离最远的点之间的边来对图进行划分，划分边界处在两类之间具有点密度最低的位置。
半监督学习使用分水岭分类器的特性是：对新数据点的分类需要将新数据点添加到未标记的数据集，再次运行算法。当使用MST-watershed时，新的数据点标记为与其最近的邻居的标签。
分水岭集成
从特征中选出多个特征子集，计算使用不同特征子集时的边权重，并计算其分类结果，对使用不同特征子集划分的图的结果进行集成。

结论及未来展望

本文通过将最大间隔原则扩展至最大间隔划分，提出了将分水岭作为分类器的框架。并证明分水岭为所提出的最大间隔划分MORPHMEDIAN的一种特殊情况。本文也对分水岭如何如其他机器学习方法结合，如何集成进行了演示，并与其他相关方法性能进行了比较。
本文旨在理解分水岭作为分类器的行为，得到更好的分类器。对边的权重的更好的衡量可得到更好的分类器，如，使用神经网络对边的权重进行估计，改进分类器的准确性（未来研究）。