【论文精读】SVM for Clustering

A Support Vector Method for Clustering

原文地址:A Support Vector Method for Clustering

本文介绍了一种基于SVM的聚类方法,核心思想是用高斯核的SVM找到多个能够包围数据的半径最小的超球。使用此方法不用预先确定类别的结构和个数。

Abstract

聚类问题可以用参数化或非参数化的方法处理。参数化方法往往限制于其表达能力(expressive power),即需要预先猜想类别的结构(概率分布)。这篇文章提出一种非参数化的基于SV的方法用来描述高维分布的特性,首先找到一个最小半径的能够包围所有数据的超球,通过减小高斯核的方差(the width parameter of the Gaussian kernel function),可以使超球分类成很多的小部分,每一小部分中包含的点便是一种类别。用软间隔解决异常值问题从而处理不同类别重叠的问题。

Describing Cluster Boundaries with Support Vectors

共有N个数据点{xi}χχRdΦχ变换至高维的特征,加入松弛变量ξj,要想求得包围所有数据的最小半径的超球,可用下面的问题描述:

min R2+CΣξjs.t. Φ(xj)a2R2+ξj,ξj0,j

其中R为半径,a为超求的球心,拉格朗日函数:

L=R2Σ(R2+ξjΦ(xj)a2)βjΣξjμj+CΣξj,

其中拉格朗日乘子βj0,μj0C为惩罚参数。对R,a,ξj分别求偏导并置零得:

Σβj=1,a=ΣβjΦ(xj),βj=Cμj

KKT条件:

ξjμj=0,(R2+ξjΦ(xj)a2)βj)=0

对于样本点xi

  • ξi>0则样本点在超球外;
  • ξi=0则样本点在超球面上或超球面内,当βi0
    • 0<βi<C则称样本点是一个支持向量(SV);
    • βi=C则称样本点为边界支持向量(bounded SV)

接下来拉格朗日对偶函数:

W=ΣjΦ(xj)2βjΣi,jβiβjΦ(xi)Φ(xj)

将上述推导出的条件代入可得约束条件变为:

0βjC

将内积运算全部换成如下的高斯核:

K(xi,xj)=eqxixj2,

q为宽度参数(width parameter,即12σ2),那么拉格朗日对偶函数可写为:

W=ΣjK(xj,xj)βjΣi,jβiβjK(xi,xj)

此时数据点到球心的距离:

R2(x)=Φ(xj)a2

可化为:

R2(x)=K(x,x)2ΣjβjK(xj,x)+Σi,jβiβjK(xi,xj)

那么超球的半径即为SV到球心的距离。此时闭合轮廓的形状由参数qC决定。如下图,q增大,轮廓就越贴合样本点。q主要定义了单个样本对整个分类超平面的影响,当q比较小时,单个样本对整个分类超平面的影响比较小,不容易被选择为支持向量,反之,当q比较大时,单个样本对整个分类超平面的影响比较大,更容易被选择为支持向量,或者说整个模型的支持向量也会多。

figure1

而当C减小时,如下图,轮廓边缘变得平滑,SV的数量减少,而bounded SV的数量增多(当C<1时bounded SV才会存在),可以更好地处理异常点。如果把惩罚系数C和RBF核函数的系数q一起看,当C比较大,q比较大时,我们会有更多的支持向量,我们的模型会比较复杂,容易过拟合一些。如果C比较小 ,q比较小时,模型会变得简单,支持向量的个数会少。

figure2

Support Vector Clustering (SVC)

为了将数据点聚类,文中介绍了一种求两点间邻接矩阵的方法:

邻接矩阵

如果两点连线间的所有点均在超球内部,说明两数据点有连接,即位于同一类。

Overlapping clusters(不是很懂)

当存在重叠时,说明bounded SV很多,SVC可以近似地看作Parzen窗概率密度估计(如下公式)。

p(x)=1NΣiK(xi,x)

Parzen窗概率密度估计值最大的点便是核心的点。

The iris data

在鸢尾花数据集的数值实验中,SVC表现要优于information theoretic approach和SPC algorithm这两个非参数化的聚类方法。具体实验结果如下:

result

同时,需要注意的是,SVC在低维特征上的表现要优于高维特征,因此最好事先对数据特征进行降维处理,例如PCA。

Varying q and C

这里将如何寻找最优的qC,对于q最好从小到大依次寻找,因为一个比较好的聚类通常含有较少的类别。当SV的数量超出某个范时便可确定参数qC

发布了16 篇原创文章 · 获赞 7 · 访问量 1万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览