k-means算法 python实现

k-means算法

算法描述

需要事先指定簇的个数k,算法开始随机选择k个记录点作为中心点,然后遍历整个数据集的各条记录,将每条记录归到离它最近的中心点所在的簇中,之后以各个簇的记录的均值中心点取代之前的中心点,然后不断迭代,直到收敛,算法描述如下:

  • 1 随机选取k个中心点

  • 2 遍历所有数据,将每个数据划分到最近的中心点中

  • 3 计算每个聚类的平均值,并作为新的中心点

  • 4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代

算法复杂度

  • 时间复杂度:O(Ink*m)

  • 空间复杂度:O(n*m)

其中m为每个元素字段个数,n为数据量,I为迭代个数。一般I,k,m均可认为是常量,所以时间和空间复杂度可以简化为O(n),即线性的。

优点:

  • 原理简单

  • 速度快

  • 对大数据集有比较好的伸缩性

缺点:

  • 需要指定聚类 数量K

  • 对异常值敏感

  • 对初始值敏感

算法实现

def distEclud(vecA, vecB):
    '''
    # 计算两个向量的距离,用的是欧几里得距离
    :param vecA:
    :param vecB: 
    :return: 距离
    '''
    return sqrt(sum(power(vecA - vecB, 2)))

 

def randCent(dataSet, k):
    '''
    # 随机生成初始的质心(ng的课说的初始方式是随机选K个点)
    :param dataSet: 输入需聚类的数据集
    :param k: 划分的簇数
    :return: 返回 k 个簇的初始随机中心数组
    '''
    n = shape(dataSet)[1]
    centroids = mat(zeros((k, n)))
    for j in range(n):
        minJ = min(dataSet[:, j])
        rangeJ = float(max(array(dataSet)[:, j]) - minJ)
        centroids[:, j] = minJ + rangeJ * random.rand(k, 1)
    return centroids
def kMeans(dataSet, k,max_times=300, distMeas=distEclud, createCent=randCent):
    '''
    # K-mean 算法实现
    :param dataSet: 需聚类的数据集
    :param k: 要划分的簇数
	:param max_times:最高迭代次数 
    :param distMeas: 距离的度量算法,默认方法为 distEclud(即欧几里得距离)
    :param createCent: 随机生成初始的质心
    :return: 返回 K 个簇的中心以及划分过后的数据集
    '''
    m = shape(dataSet)[0]

    # 创建一个数据划分空间
    clusterAssment = mat(zeros((m, 2)))
    # 获取初始随机簇中心点
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged || max_times < 0:
	Max_times -= 1
        clusterChanged = False
        for i in range(m):
            minDist = inf
            minIndex = -1
            for j in range(k):
                # 获取每个点到中心 k 的欧几里得距离
                distJI = distMeas(centroids[j, :], dataSet[i, :])
                # 选择最小距离
                if distJI < minDist:
                    minDist = distJI
                    minIndex = j
            # 判断中心点是否变化
            if clusterAssment[i, 0] != minIndex:
                clusterChanged = True
            clusterAssment[i, :] = minIndex, minDist ** 2

        # 重新计算中心
        for cent in range(k):
            # 获取这个簇中的所有点
            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
            # 分配质心为平均值
            centroids[cent, :] = mean(ptsInClust, axis=0)
    return centroids, clusterAssment

 

转载于:https://my.oschina.net/dwqdwd/blog/1820113

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值