@在R语言中用 elbow 方法确定最佳聚类数
文章目录
如何在R语言中用 elbow 方法确定最佳聚类数
在无监督学习中,我们有时候使用 k-means 方法进行聚类,对数据进行分析。k-means 很好用,但是确定最佳类别数是一个需要技术的活。如何科学地确定最佳类别数?下面介绍:使用elbow method确定 k-means的最佳类别数。
k-means 方法
k-means 算法流程
伪代码
用符号写出来就是符号形式的算法流程,叫做伪代码。
- 算法描述
输入:数据集(每一行代表一个样本,没有label);类别数目 k
输出:数据集中每个样本对应的类别
1. 随机选择 k 个样本作为聚类中心;
2. 计算每个样本到 k 个聚类中心的距离,选择最近的聚类中心作为该样本的聚类中心;
3. 经过第2步之后,样本被分为 k 组,并且每组都有自己的聚类中心;重新计算每组的聚类中心;
4. 计算新的聚类中心与原来聚