K均值聚类算法是一种广泛使用的聚类分析方法,其基本原理是将数据集划分为K个簇,每个簇由其质心(即簇中所有点的中心)描述。该算法通过迭代优化过程,将数据集中的每个点分配到最近的质心所形成的簇中,并更新每个簇的质心,直到质心不再发生变化或达到预设的终止条件。
K均值聚类算法具有以下优点:
- 简单且易于实现:K均值聚类算法的基本原理和步骤相对简单,易于理解和实现。
- 可扩展性:该算法能够处理大型数据集,并且在大多数情况下具有高效的计算速度。
- 对于凸形簇有效:当数据集中的簇为凸形状时,K均值聚类能够较好地将数据划分为不同的簇。
缺点:
- 对初始质心敏感:算法对初始质心的选择非常敏感,不同的初始质心可能导致不同的聚类结果,因此可能需要多次运行算法并选择最佳结果。
- 需要预先指定簇的数量:用户需要预先指定簇的数量K,但在现实应用中,确定合适的K值可能是一个挑战。
- 对非凸形状簇效果差:K均值聚类假设簇为球形或凸形状,对于非凸形状的簇效果可能较差。
- 对噪声和离群点敏感:算法对噪声和离群点很敏感,可能会将它们错误地分配到簇中。
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
import numpy as np
import pandas as pd
import random
import sys
import time
class KMeansClusterer:
def __init__(self,ndarray,cluster_num):
self.ndarray = ndarray
self.cluster_num = cluster_num
self.points=self.__pick_start_point(ndarray,cluster_num)
def cluster(self):
result = []
for i in range(self.cluster_num):
result.append([])
for item in self.ndarray:
distance_min = sys.maxsize
index=-1
for i in range(len(self.points)):
distance = self.__distance(item,self.points[i])
if distance < distance_min:
distance_min = distance
index = i
result[index] = result[index] + [item.tolist()]
new_center=[]
for item in result:
new_center.append(self.__center(item).tolist())
# 中心点未改变,说明达到稳态,结束递归
if (self.points==new_center).all():
return result
self.points=np.array(new_center)
return self.cluster()
def __center(self,list):
'''计算一组坐标的中心点
'''
# 计算每一列的平均值
return np.array(list).mean(axis=0)
def __distance(self,p1,p2):
'''计算两点间距
'''
tmp=0
for i in range(len(p1)):
tmp += pow(p1[i]-p2[i],2)
return pow(tmp,0.5)
def __pick_start_point(self,ndarray,cluster_num):
if cluster_num <0 or cluster_num > ndarray.shape[0]:
raise Exception("簇数设置有误")
# 随机点的下标
indexes=random.sample(np.arange(0,ndarray.shape[0],step=1).tolist(),cluster_num)
points=[]
for index in indexes:
points.append(ndarray[index].tolist())
return np.array(points)