聚类算法一些记录（未完成）

SASparker

于 2021-02-24 20:10:40 发布

阅读量178

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_33890822/article/details/114028425

版权

2 篇文章 0 订阅

订阅专栏

EM算法

K-Means的迭代过程其实是一种EM算法。Expectation-Maximization algorithm，简而言之，就是根据初始化的参数，利用最大似然估计，估计出数据的情况，再根据数据的分布反过来更新参数，两个过程相互迭代的过程。

基于欧式距离的 K-means 假设了各个数据簇的数据具有一样的先验概率并呈现球形分布

在这里插入图片描述
注意，不是一个点一个点加进去的，计算所有点属于哪个簇和根据数据点的分类变化更新质心这两个过程迭代进行。

手肘法（多次选取不同的K值，计算损失函数，找到K-Loss曲线的转折点）
Gap Statistic法：设分簇后的损失函数为 $D_{K}$ ，Gap Statistic定义为 $\operatorname{Gap}(K)=E\left(\log D_{K}\right)-\log D_{K}$ ，可以看成随机样本的损失与实际样本的损失之差， $\operatorname{Gap}(K)$ 越大，就反映实际数据的损失函数越小。 $E\left(\log D_{K}\right)$ 表示随机样本的期望，通过蒙特卡洛模拟得到。多次产生和原始数据数量相同的随机样本，计算 $D_{K}$ ，得到 $E\left(\log D_{K}\right)$ 。

采用核函数，高维球形分布的数据并不常见，通过核函数，在新的空间内聚类
K-means++，初始化时逐个选取聚类中心，选取下一个聚类中心时候，距离当前已有聚类中心越远的点越有希望被选取
ISODATA，在原始K-means算法的基础之上，在迭代时候增加了两个操作，一是分裂操作，当某一簇方差超过一定阈值，就将该簇分裂成两个簇；二是合并操作，如果两个簇的质心相距很近，就合并这两个簇。

对噪声不敏感，在大规模数据下比较高效
数据的录入顺序对结果影响较大
对超球状分布的数据有良好的识别，对凸型数据分布识别较差

关注

专栏目录