dbscan和谱聚类_拉普拉斯降维与谱聚类

高维数据聚类中,谱聚类通过拉普拉斯降维能有效处理稀疏分布和任意形状数据。拉普拉斯降维保留数据的局部几何结构,降低维度后利用k-means进行聚类。拉普拉斯矩阵通过KNN构建权重矩阵,并可能使用归一化处理避免离群点影响,如RatioCut和N-cut方法。
摘要由CSDN通过智能技术生成

高维数据聚类(数据分布稀疏)和分布任意形状(DBSCAN可以实现,但是需要指定超参数)的聚类是传统聚类算法比较难做的。谱聚类可以很好的解决这两个问题,一般而言,可以概括为降维->聚类两个过程:1、降维,保留高维空间的局部几何结构,将本真结构投影到低维空间中,这样就直接解决了任意数据分布聚类的问题,同时降维也有利于解决高维度的问题。谱聚类是通过拉普拉斯降维来实现的;2、聚类,通过传统聚类算法,谱聚类用的是k-means,在低维空间中实现聚类。下面重点讲一下拉普拉斯降维。

拉普拉斯降维(Laplacian Eigenmaps),可以归类到流形学习,思想是相互之间有关系的点,降维之后足够接近;没有关系的点,降维之后足够远,相互之间的关系可以用KNN来构建weight矩阵(每个数据点,只保留最近的k个数据点的距离,其他为0)。公式化一下:

equation?tex=min+%5Csum_%7Bi%2C+j%7DW_%7Bij%7D%28y_i-y_j%29%5E2

其中

equation?tex=y 是降维之后的子空间,如果越相似,那么距离就应该越小以保证目标最小化。上面只考虑了降维到一个feature的情况。为的是方便推导,上面的方程可以改写为:

equation?tex=-2%5Csum_%7Bi%2Cj%7DW_%7Bij%7Dy_iy_j%2B%5Csum_%7Bi%2Cj%7DW_%7Bij%7Dy_i%5E2%2B%5Csum_%7Bi%2Cj%7DW_%7Bij%7Dy_j%5E2

按照基本的线性代数知识,

equation?tex=%5Csum_%7Bi%2Cj%7DW_%7Bij%7Dy_iy_j%3Dy%5ETWy%2C%5Csum_%7Bi%2Cj%7DW_%7Bij%7Dy_i%5E2%3Dy%5ETDy

equation?tex=D 只有对角线上有值,代表数据点所连的weight之和,度矩阵。

目标变为最小化:

equation?tex=y%5ETLy%2C+L%3DD-W

实际上,距离

equation?tex=%28y_i-y_j%29%5E2 , 应该是子空间所有feature的距离之和,可以让多个低维feature按列堆叠,优化目标为:

equation?tex=min%3Atr%28Y%5ETLY%29

很好理解,每个对角线元素代表一个feature的优化结果,求和就是秩。

拉普拉斯矩阵一般还要做归一化处理,也就是为了避免离群点,weight矩阵用度矩阵归一化,一般而言,有两种思路:

equation?tex=L%3DD%5E%7B-1%7DL%EF%BC%8C+L%3DD%5E%7B-1%2F2%7DLD%5E%7B-1%2F2%7D ,
equation?tex=+L%3DD%5E%7B-1%2F2%7DLD%5E%7B-1%2F2%7D 的直观认识是weight矩阵每个元素用数据点的度归一化:
equation?tex=W_%7Bij%7D%2F%28%5Csqrt%7Bd_i%7D%5Csqrt%7Bd_j%7D%29

另外一种理解思路是用图划分的角度理解,图划分就是把图划分称为很多子group,可以说对应了聚类结果,具体过程网上有很多,这里不再补充,这里说说我上面的目标怎么跟图划分联系起来的

equation?tex=min+%5Csum_%7Bi%2C+j%7DW_%7Bij%7D%28y_i-y_j%29%5E2 如果
equation?tex=y 是0-1变量,代表数据划分为两个子图,最后目标是两个子图之间的weight之和,可以看出这个目标对应了图划分的目标,问题是图划分是NP-hard的,因此转化为拉普拉斯降维来做。这里
equation?tex=y 的含义也是一种“不确定”(非0-1)的划分。

那么拉普拉斯降维后,子空间每一个维度代表了不同角度的图划分(每次都划分为两个子图)

RatioCut和N-cut对应拉普拉斯矩阵的归一化方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值