聚类理论、实践
手写理论
聚类
聚类的定义
相似度/距离计算方法总结
【余弦相似度和Pearson系数】
聚类的基本思想
K-means算法
K-means缺点
K-means是初值敏感的。
K-means的公式化解释
K-means++算法:
(1)假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。
(2)在选取第一个聚类中心(n=1)时同样通过随机的方法。
K-means聚类方法总结
聚类的衡量指标
层次聚类方法
【AGNES和DIANA算法】
【层次聚类】
【AGENS中簇间距离的不同定义】
密度聚类方法
【DBSCAN算法】
【DBSCAN算法的若干概念】
【DBSCAN算法】
【密度最大值聚类】
【局部密度的其他定义】
【高局部密度点距离】
【簇中心的识别】
【DensityPeak与决策图Decision Graph】
【边界和噪声的重认识】
谱聚类(AP聚类)Affinity Propagation
PS:实对称阵的特征值是实数;实对称阵不同特征值的特征向量正交。
谱和谱聚类
【谱和谱聚类】
【拉普拉斯矩阵的定义】
谱聚类算法
【未正则拉普拉斯矩阵】
【随机游走拉普拉斯矩阵】
【对称拉普拉斯矩阵】
当
L
=
D
−
W
L=D-W
L=D−W时是计算L的特征值,将特征值从小到大排序,选取前k个特征值;D-W是从大到小排列。
当
L
=
D
−
1
(
D
−
W
)
L=D^{-1}(D-W)
L=D−1(D−W),是从小到大排序,
L
=
D
−
1
W
L=D^{-1}W
L=D−1W是从大到小排。
【进一步思考】
【随机游走和拉普拉斯矩阵的关系】
PS:标签传递算法