K-Means Clustering算法

最新推荐文章于 2025-04-30 23:15:20 发布

sysu_xiamengyou

最新推荐文章于 2025-04-30 23:15:20 发布

阅读量8.3k

点赞数

分类专栏： k-means算法文章标签： clustering k-means算法

本文链接：https://blog.csdn.net/sysu_xiamengyou/article/details/68941900

版权

k-means算法专栏收录该内容

1 篇文章

订阅专栏

K-Means Clustering算法

k-means聚类接受的参数输入和分级聚类算法一样，接受相同的数据行作为输入，此外它还接受一个调用者期望返回的聚类数（k）作为参数。

k-means聚类算法不同于分级聚类算法，它会预先告诉算法希望生成的聚类数量，然后算法会根据数据的结构状况来确定聚类的大小。

聚类过程

图1 K-Means聚类算法示意图
在第一步中，随机生成两个聚类中心，分别是两个小黑圈；在第二步中，A和B被分配给上方的聚类中心，C、D、E被分配给下面的聚类中心；第三步中，聚类中心移至聚类所有元素的中心位置；第四步，以新的聚类中心对所有元素重新进行聚类，这时C离上方的聚类中心更近了，被分配给上面的聚类中心；第五步聚类中心再移至所有元素中心位置，这时候在聚类不会发生变化了。

import random
def kcluster(rows, distance=pearson, k=4):
    # 确定每个点的最小值与最大值
    ranges = [(min(row[i] for row in rows), max(row[i] for row in rows)) for i in range(len(rows[0]))]

    # 随机创建k个中心点
    clusters = [[random.random() * (ranges[i][1] - ranges[i][0]) + ranges[i][0] for i in range(len(rows[0]))] for
                j in range(k)]

    lastmatches = None
    for t in range(100):
        # 聚类次数
        print('Iteration %d' % t)
        # 每次的聚类集合都会重新清空
        bestmatches = [[] for i in range(k)]

        # 在每一行寻找距离最近的中心点
        for j in range(len(rows)):
            row = rows[j]
            bestmatche = 0
            for i in range(k):
                d = distance(clusters[i], row)
                if d < distance(clusters[bestmatche], row):
                    bestmatche = i
            bestmatches[bestmatche].append(j)

        # 如果结果与上次迭代相同，整个过程结束
        if bestmatches == lastmatches:
            break
        lastmatches = bestmatches

        # 把中心点移到其所有成员的平均数位置处
        for i in range(k):
            avrgs = [0.0] * len(rows[0])
            if len(bestmatches[i]) > 0:
                for rowid in bestmatches[i]:
                    for m in range(len(rows[rowid])):
                        avrgs[m] += rows[rowid][m]
                for j in range(len(avrgs)):
                    avrgs[j] /= len(bestmatches[i])
                clusters[i] = avrgs
    return bestmatches