基本概念
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
- 聚成多少个簇:由K的值决定
- 距离的衡量标准:一般由欧式距离作为距离的衡量标准
- 质心的选取:由各向量的均值决定
- 目标优化函数:
m i n ∑ i = 1 k ∑ x ∈ c i ( c i , x ) 2 min\sum_{i=1}^k\sum_{x\in c_i}(c_i,x)^2 mini=1∑kx∈ci∑(ci,x)2
常见的距离
曼哈顿距离
d = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d=\lvert x_1-x_2\lvert+\lvert y_1-y_2\lvert d=∣x1−x2∣+