聚类算法
聚类算法评价标准
比较简便的评价标准如下
J
e
=
∑
i
=
1
c
∑
x
∈
D
i
∣
∣
x
−
M
i
∣
∣
2
m
i
=
1
n
i
∑
x
∈
D
i
x
\begin{aligned} J_e &= \sum_{i=1}^c\sum_{x\in D_i}||x-M_i||^2\\ m_i &= \frac{1}{n_i}\sum_{x\in D_i}x \end{aligned}
Jemi=i=1∑cx∈Di∑∣∣x−Mi∣∣2=ni1x∈Di∑x
上述表示为,将数据聚成 C 个类别的结果的评价。每个类内部越相近,结果越小。但有一个假设在——处理的数据形状类似球形。
K-Means
问题:
- k 值无法直接给定
- 可能会收敛到局部最优解
- 对噪声与离群点敏感(K-Means使用的是均值)
高斯混合模型
g ( x , μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 / ( 2 σ 2 ) f ( x ) = ∑ i = 1 n a i g ( x , μ , σ ) , a i ≥ 0 & ∑ i a i = 1 \begin{aligned} g(x,\mu,\sigma) &= \frac{1}{\sqrt{2\pi \sigma^2}}e^{-(x-\mu)^2/(2\sigma^2)}\\ f(x) &= \sum_{i=1}^na_ig(x,\mu,\sigma),\quad a_i\ge0\ \&\sum_ia_i=1 \end{aligned} g(x,μ,σ)f(x)=2πσ21e−(x−μ)2/(2σ2)=i=1∑naig(x,μ,σ),ai≥0 &i∑ai=1
EM 算法不保证全局最优,类似梯度下降法。初始值猜测不太好时,最终收敛的结果也可能不太好。
DBSCAN
将数据划分成三类:
- Core Point:核心点
- Border Point:边缘点(在核心点周围)
- Noise Point:噪点(需要消除)