聚类分析:无监督学习方法
目标:给定样本,依据他们的相似度或者距离,将其归并到若干个类或簇的数据分析问题
聚类的基本概念
相似度距离的度量
样本矩阵:
X
=
(
x
1
,
⋯
,
x
n
)
T
∈
R
N
×
p
X=(x_1,\cdots,x_n)^T \in R^{N\times p}
X=(x1,⋯,xn)T∈RN×p
闵可夫斯基距离
马式距离
相关系数
夹角余弦
类或簇
常用特征
- 类的均值
x ˉ G = 1 n G ∑ i = 1 n G x i \bar x_G=\frac{1}{n_G}\sum_{i=1}^{n_G}x_i xˉG=nG1i=1∑nGxi - 类的直径
D G = m a x x i , x j ∈ G d i j D_G=max _{x_i,x_j\in G}d_{ij} DG=maxxi,xj∈Gdij - 类的散布矩阵和样本协方差矩阵
类与类之间的距离
层次聚类
k均值聚类
目标: 将n个样本分到k个不同类或簇
策略
最优化问题:
将n个样本划分到k个类别
s
(
n
,
k
)
=
1
k
!
∑
l
=
1
k
(
−
1
)
k
−
l
C
k
l
(
k
−
l
)
n
s(n,k)=\frac{1}{k!}\sum_{l=1}^k(-1)^{k-l}C_k^l(k-l)^n
s(n,k)=k!1∑l=1k(−1)k−lCkl(k−l)n