k-means算法
算法描述
需要事先指定簇的个数k,算法开始随机选择k个记录点作为中心点,然后遍历整个数据集的各条记录,将每条记录归到离它最近的中心点所在的簇中,之后以各个簇的记录的均值中心点取代之前的中心点,然后不断迭代,直到收敛,算法描述如下:
-
1 随机选取k个中心点
-
2 遍历所有数据,将每个数据划分到最近的中心点中
-
3 计算每个聚类的平均值,并作为新的中心点
-
4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代
算法复杂度
-
时间复杂度:O(Ink*m)
-
空间复杂度:O(n*m)
其中m为每个元素字段个数,n为数据量,I为迭代个数。一般I,k,m均可认为是常量,所以时间和空间复杂度可以简化为O(n),即线性的。
优点:
-
原理简单
-
速度快
-
对大数据集有比较好的伸缩性
缺点:
-
需要指定聚类 数量K
-
对异常值敏感
-
对初始值敏感
算法实现
def distEclud(vecA, vecB):
'''
# 计算两个向量的距离,用的是欧几里得距离
:param vecA:
:param vecB:
:return: 距离
'''
return sqrt(sum(power(vecA - vecB, 2)))
def randCent(dataSet, k):
'''
# 随机生成初始的质心(ng的课说的初始方式是随机选K个点)
:param dataSet: 输入需聚类的数据集
:param k: 划分的簇数
:return: 返回 k 个簇的初始随机中心数组
'''
n = shape(dataSet)[1]
centroids = mat(zeros((k, n)))
for j in range(n):
minJ = min(dataSet[:, j])
rangeJ = float(max(array(dataSet)[:, j]) - minJ)
centroids[:, j] = minJ + rangeJ * random.rand(k, 1)
return centroids
def kMeans(dataSet, k,max_times=300, distMeas=distEclud, createCent=randCent):
'''
# K-mean 算法实现
:param dataSet: 需聚类的数据集
:param k: 要划分的簇数
:param max_times:最高迭代次数
:param distMeas: 距离的度量算法,默认方法为 distEclud(即欧几里得距离)
:param createCent: 随机生成初始的质心
:return: 返回 K 个簇的中心以及划分过后的数据集
'''
m = shape(dataSet)[0]
# 创建一个数据划分空间
clusterAssment = mat(zeros((m, 2)))
# 获取初始随机簇中心点
centroids = createCent(dataSet, k)
clusterChanged = True
while clusterChanged || max_times < 0:
Max_times -= 1
clusterChanged = False
for i in range(m):
minDist = inf
minIndex = -1
for j in range(k):
# 获取每个点到中心 k 的欧几里得距离
distJI = distMeas(centroids[j, :], dataSet[i, :])
# 选择最小距离
if distJI < minDist:
minDist = distJI
minIndex = j
# 判断中心点是否变化
if clusterAssment[i, 0] != minIndex:
clusterChanged = True
clusterAssment[i, :] = minIndex, minDist ** 2
# 重新计算中心
for cent in range(k):
# 获取这个簇中的所有点
ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
# 分配质心为平均值
centroids[cent, :] = mean(ptsInClust, axis=0)
return centroids, clusterAssment