「AI科技」机器学习算法之K-means算法原理及缺点改进思路_k-means方法存在的主要缺点是什么?如何解决?-CSDN博客

本文深入探讨了K-means聚类算法，介绍了其原理、特点及应用领域，并提出了改进思路，包括确定K值的方法和优化初始聚类中心的选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019-01-03 08:00:00

K-means算法是使用得最为广泛的一个算法，本文将介绍K-means 聚类算法、原理、特点及改进思路。

K-means聚类算法简介

K-means 聚类算法，是基于距离的一种无监督式的学习算法。在1967年首次由MacQueen提出，常用于模式识别和数据挖掘中，其目的是对一组数据进行几何等价划分进行分类。

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

K-means算法是使用得最为广泛的一个算法，其应用场景遍及医学、经济学、行为学、决策科学等领域。算法以样本均值（质心）代表该类，定义简单具有清晰明了的几何和统计意义。

算法的基本思路：

算法的工作流程

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

一般情况下我们都是以欧拉距离公式来计算两个数据对象间的距离，但还有其他的一些方法可以用于计算，算法如下：

①明氏距离（Minkowski Distance）

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

这里的xi=( i1，xi2，…，xip)和xj=( j1，xj2，…，xjp)是两个p维的数据对象并且 i≠j。

②欧式距离（Euclidean Distance）

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

当明氏距离中q=2时，公式1即欧式距离。

③兰式距离（Canberra Distance）：

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

（2）准则函数E

对于K-means算法，通常使用准则函数E，也就是误差平方和（Sum of Squared Error，SSE）作为度量聚类质量的目标函数。

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

其中，d( )表示两个对象之间的距离，可以利用明氏、欧式或兰氏距离求得。

对于相同的k值，更小的SSE说明簇中对象越集中。对于不同的k值，越大的k值应该越小的SSE。

K-means算法优点：

K-means算法缺点：

「AI科技」机器学习算法之K-means算法原理及缺点改进思路

针对以上确定，最后两点属于数据问题，无法解决，但是前两点还是可以进行改进的。针对第一个缺点，可以通过肘部算法来确定K的数量，具体步骤如下：

针对第二个缺点，可以对初始聚类中心的选择进行优化。优化思想为：选择批次距离尽可能远的K个点。具体选择步骤如下：

后续将通过python代码对K-means聚类算法进行实现。