Watersheds for Semi-Supervised Classification

来源:IEEE SIGNAL PROCESSING LETTERS, VOL. 26, NO. 5, MAY 2019
作者:Aditya Challa , Sravan Danda , B. S. Daya Sagar ,and Laurent Najman

摘要:

数学形态学(MM)中的分水岭技术是一种应用广泛的图像分割算子。最近,分水岭被用于边加权图,使得适用性更广泛。然而,仍有一些问题有待解决——分水岭算子在边界处表现如何?分水岭算子应该优化哪个损失函数?分水岭算子如何与机器学习的现有理念相关联?本文提出了一个框架来回答这些问题。通过将最大间隔原则推广到最大间隔划分,提出了一种可实现最大间隔划分的通用方案MORPHMEDIAN。分水岭形成了一类特定的MORPHMEDIAN分类器。利用集成技术,分水岭也可扩展为集成分水岭。与文献中的已有的相关方法比较结果表明,分水岭的性能在某些数据集上优于支持向量机,而集合分水岭性能一般都优于随机森林分类器。

引言

分水岭算法是一种基本数学形态学分割算法,已有研究将分水岭扩展到边加权图,并对其与最小生成树的联系进行了论述。对任意种子点,MST-分水岭算法如下:
输入:有限边的边加权图G=(V,E,W)及部分标注种子点S。
输出:顶点划分
分水岭算法已被用于图像分类及其他相关数据分析算法。有研究使用相关的图像森林变换用于监督分类,有研究使用分水岭和CNN在CREMI挑战取得最好性能。此外,分水岭也是较先进的分割技术COB的一部分。广义上讲,分水岭属于监督分类算法。但仍存在一些问题:(1)当分水岭作为分类器时,边界性能如何?(2)分水岭优化应采用什么损失函数?(3)分水岭与已有的机器学习思想之间如何联系?
本文的主要贡献:(1)将最大间隔原则框架扩展到使用不相似度衡量的集合(2)提出了简单的分类器MORPHMEDIAN,并证明该分类器返回最大间隔划分(3)证明了分水岭是MORPHMEDIAN的一种特殊案例,将分水岭解决的优化问题视为分类器(4)使用集成技术,将分水岭扩展为集成分水岭(5)分水岭、集成分水岭及相关方法在数据集上的性能进行比较

最大间隔划分和MORPHMEDIAN

对于G的顶点集V,使用 ρ ( x , y ) \rho(x,y) ρ(x,y)表示顶点x和顶点y之间的不相似性,顶点集合X和Y之间的不相似性定义为 ρ ( X , Y ) = min ⁡ x ∈ X , y ∈ Y ρ ( x , y ) \rho(X,Y)=\min\limits_{x\in X,y\in Y}\rho(x,y) ρ(X,Y)=xX,yYminρ(x,y).
全体顶点集 V = M 0 ∪ M 1 V=M_0 \cup M_1 V=M0M1
标注为1的顶点集 X 1 X_1 X1和标注为0的顶点集 X 0 X_0 X0分别为 W 1 W_1 W1 W 0 W_0 W0的子集且两者不相交。
标注为0的顶点x与集 M 1 M_1 M1的间隔可定义为 ρ ( x , M 1 ) \rho(x,M_1) ρ(x,M1)
标注为0的顶点子集 X 0 X_0 X0与标注为1的顶点集 M 1 M_1 M1的间隔可定义为 ρ ( X 0 , M 1 ) \rho(X_0,M_1) ρ(X0,M1),
标注为1的顶点子集 X 1 X_1 X1与标注为0的顶点集 M 0 M_0 M0的间隔可定义为 ρ ( X 1 , M 0 ) \rho(X_1,M_0) ρ(X1,M0).
我们对最大间隔划分的定义如下: ( V , ρ ) (V,\rho) (V,ρ)为使用 ρ \rho ρ不相似性度量的点集,点集 X 0 X_0 X0 X 1 X_1 X1分别为标注为0和标注为1的顶点子集且 X i ∈ M i , i = 0 , 1 X_i\in M_i,i=0,1 XiMi,i=0,1。划分 V = M 0 ∪ M 1 V=M_0\cup M_1 V=M0M1为最大间隔划分,当且仅当 m i n { ρ ( X 0 , M 1 ) , ρ ( X 1 , M 0 ) } min\{\rho(X_0,M_1),\rho(X_1,M_0)\} min{ρ(X0,M1),ρ(X1,M0)}最大时。
我们所提出的分类器MORPHMEDIAN定义如下:
1)当 ρ ( X 0 , x ) < ρ ( X 1 , x ) \rho(X_0,x)<\rho(X_1,x) ρ(X0,x)<ρ(X1,x)时, x ∈ M 0 x\in M_0 xM0 ;
2)当 ρ ( X 0 , x ) < ρ ( X 1 , x ) \rho(X_0,x)<\rho(X_1,x) ρ(X0,x)<ρ(X1,x)时, x ∈ M 0 x\in M_0 xM0
依据1)、2)得到的划分 V = M 0 ∪ M 1 V=M_0\cup M_1 V=M0M1被称为MORPHMEDIN划分。
ps:在边界处,即 ρ ( X 0 , x ) = ρ ( X 1 , x ) \rho(X_0,x)=\rho(X_1,x) ρ(X0,x)=ρ(X1,x)处,点可以被任意标注为0或1.
定理:每个MORPHMEDIAN划分均为最大间隔划分。

分水岭用于半监督分类

x , y ∈ V , ρ m a x ( x , y ) = min ⁡ π ∈ Π ( x , y ) max ⁡ e ∈ π W ( e ) x,y \in V,\rho_{max}(x,y)=\min \limits_{\pi \in \Pi(x,y)}\max \limits_{e\in \pi}W(e) x,yV,ρmax(x,y)=πΠ(x,y)mineπmaxW(e),其中, Π ( x , y ) \Pi(x,y) Π(x,y)为图G中x到y间的所有路径集合,e为路径 π \pi π上的边。 ρ m a x ( . . , . . ) \rho_{max}(..,..) ρmax(..,..)被称为pass value,用来反映从x到y必须移动的最小高度。基于此,我们有以下定理:
对于边加权图G=(V,E,W),MSF-watershed返回一个在 ( V , ρ m a x ) (V,\rho_{max}) (V,ρmax)空间的MORPHMEDIAN划分,该划分为 ( V , ρ m a x ) (V,\rho_{max}) (V,ρmax)空间的最大间隔划分。
分水岭通过移除图中分离最远的点之间的边来对图进行划分,划分边界处在两类之间具有点密度最低的位置。
半监督学习使用分水岭分类器的特性是:对新数据点的分类需要将新数据点添加到未标记的数据集,再次运行算法。当使用MST-watershed时,新的数据点标记为与其最近的邻居的标签。
分水岭集成
从特征中选出多个特征子集,计算使用不同特征子集时的边权重,并计算其分类结果,对使用不同特征子集划分的图的结果进行集成。

结论及未来展望

本文通过将最大间隔原则扩展至最大间隔划分,提出了将分水岭作为分类器的框架。并证明分水岭为所提出的最大间隔划分MORPHMEDIAN的一种特殊情况。本文也对分水岭如何如其他机器学习方法结合,如何集成进行了演示,并与其他相关方法性能进行了比较。
本文旨在理解分水岭作为分类器的行为,得到更好的分类器。对边的权重的更好的衡量可得到更好的分类器,如,使用神经网络对边的权重进行估计,改进分类器的准确性(未来研究)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值