粗学聚类（1）

最新推荐文章于 2022-07-08 11:26:07 发布

Z_shsf

最新推荐文章于 2022-07-08 11:26:07 发布

阅读量831

点赞数

分类专栏： signal processing cluster 文章标签：聚类

本文链接：https://blog.csdn.net/ZSZ_shsf/article/details/45577645

版权

signal processing 同时被 2 个专栏收录

55 篇文章 11 订阅

订阅专栏

cluster

1 篇文章 0 订阅

订阅专栏

基础知识

学习聚类之前，需要了解矩阵轮的相关知识，在此先简述拉普拉斯矩阵的相关知识。
拉普拉斯矩阵也称基尔霍夫矩阵
1）定义为 $L = D-W$ ，含义为拉普拉斯矩阵=度矩阵-邻接矩阵
2）邻接矩阵：表示顶点间相邻关系的矩阵。A子图与B子图所有边的权值之和为：

W (A, B) : = \sum i \in A, j \in B W i j

$W(A,B) := \sum_{i\in A,j\in B} W_{ij}$
3) 度：与某节点定义的所有边的权值。

d i = \sum j = 1 n w i j

$d_i = \sum_{j = 1}^nw_{ij}$
度的集合则为度矩阵。
拉普拉斯矩阵性质
1）对称半正定
2）最小特征值为零，特征向量为单位向量。
3）有N个非负实特征值，且对任意实向量

f∈Rn $f\in R^n$ 存在

f' L f = 1 2 \sum i, j = 1 N w i j (f i - f j) 2

$f'Lf = \frac12\sum_{i,j = 1}^Nw_{ij}(f_i-f_j)^2$

聚类

聚类简而言之就是把一堆样本里，相似的聚在一块。
聚类方法很多：K-means，GMM，层次聚类（hierarchial clustering)，谱聚类等等。用matlab实现简单聚类的步骤一般为：
1）计算相似性；
2）定义变量之间的连接；
3）评价聚类信息；
4）聚类。
涉及的函数一般为：pdist ,squareform ,linkage ,dendrogram ,coherent ,cluster ,clusterdata ,scatter3 ,kmeans 等等，详情见matlab帮助文件，help 函数名。

浅谈GMM

统计学模型一般分为：概率模型和非概率模型，从聚类的角度上来说，前者为软分类，后者为硬分类。如何理解软硬？举个例子，某个data集分两类，其中一个样本与A类相似度为51%与B类相似度为49%，软分类面对这种样本就会存在一个“多像”的判断，有利于模型的融合，而硬分类直接将该样本划入A类。
中心极限定理简要介绍：样本量足够大，极限分布趋于高斯分布。
最大似然：使样本点在估计的概率密度函数上概率值最大，常用于参数估计。
GMM（Gaussian Mixture Model）：

p (x) = \sum k = 1 K α k p (x | k)

$p(x) = \sum_{k = 1}^K\alpha_kp(x|k)$

K $\mathbf K$ 为模型个数，

α $\alpha$ 为第k个高斯模型的权重。
log-likelyhood function:

m a x \sum i = 1 N l o g (\sum k = 1 K α k N (x i | u k, σ 2)

$max\sum_{i = 1}^Nlog(\sum_{k = 1}^K\alpha_kN(x_i|u_k,\sigma^2)$
用EM算法求极值。

浅谈层次聚类

主要有两种方法：自顶而下，自底而上
总样本为一类–>计算相似度–>划分类
每个样本单独成类–>计算相似度–>合并类
相似度的计算方法有：singleLinkage（取最近的样本距离），completeLinkage（取最远的样本距离），Average-Linkage（两两距离求平均值），average-Linkage（两两距离求中值）。

浅谈谱聚类

类比图分割。谱聚类就是找到一种合理分割的方法。
（未完待续）

以下为转载：http://blog.csdn.net/v_july_v/article/details/40738211
参考文献与推荐阅读
孟岩之理解矩阵系列：http://blog.csdn.net/myan/article/details/1865397；
理解矩阵的12点数学笔记：http://www.51weixue.com/thread-476-1-1.html；
一堆wikipedia，比如特征向量：https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%90%91%E9%87%8F；
wikipedia上关于拉普拉斯矩阵的介绍：http://en.wikipedia.org/wiki/Laplacian_matrix；
邹博之聚类PPT：http://pan.baidu.com/s/1i3gOYJr；
关于谱聚类的一篇非常不错的英文文献，“A Tutorial on Spectral Clustering”：http://engr.case.edu/ray_soumya/mlrg/Luxburg07_tutorial_spectral_clustering.pdf；
知乎上关于矩阵和特征值的两个讨论：http://www.zhihu.com/question/21082351，http://www.zhihu.com/question/21874816；
谱聚类：http://www.cnblogs.com/fengyan/archive/2012/06/21/2553999.html；
谱聚类算法：http://www.cnblogs.com/sparkwen/p/3155850.html；
漫谈 Clustering 系列：http://blog.pluskid.org/?page_id=78；
《Mining of Massive Datasets》第10章：http://infolab.stanford.edu/~ullman/mmds/book.pdf；
Tydsh: Spectral Clustering：①http://blog.sina.com.cn/s/blog_53a8a4710100g2rt.html，②http://blog.sina.com.cn/s/blog_53a8a4710100g2rv.html，③http://blog.sina.com.cn/s/blog_53a8a4710100g2ry.html，④http://blog.sina.com.cn/s/blog_53a8a4710100g2rz.html；
H. Zha, C. Ding, M. Gu, X. He, and H.D. Simon. Spectral relaxation for K-means clustering. Advances in Neural Information Processing Systems 14 (NIPS 2001). pp. 1057-1064, Vancouver, Canada. Dec. 2001；
机器学习中谱聚类方法的研究：http://lamda.nju.edu.cn/conf/MLA07/files/YuJ.pdf；
谱聚类的算法实现：http://liuzhiqiangruc.iteye.com/blog/2117144。