K-means的Python实现

最新推荐文章于 2024-08-11 16:00:02 发布

644262163

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量2.2k

点赞数

分类专栏：机器学习 Python 文章标签： Python kmeans 机器学习

本文链接：https://blog.csdn.net/qq644262163/article/details/74626429

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Python

6 篇文章 0 订阅

订阅专栏

K-means算法

以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

kmeans.py

import random
import pandas as pd
import numpy as np


# 计算欧拉距离
def calcDis(dataSet, centroids, k):
    clalist=[]
    for data in dataSet:
        diff = np.tile(data, (k, 1)) - centroids
        squaredDiff = diff ** 2
        squaredDist = np.sum(squaredDiff, axis=1)
        distance = squaredDist ** 0.5
        clalist.append(distance)
    clalist = np.array(clalist)
    return clalist

# 计算质心
def classify(dataSet, centroids, k):
    # 计算样本到质心的距离
    clalist = calcDis(dataSet, centroids, k)

    # 分组并计算新的质心
    minDistIndices = np.argmin(clalist, axis=1)
    newCentroids = pd.DataFrame(dataSet).groupby(minDistIndices).mean()
    newCentroids = newCentroids.values

    #assert k == len(newCentroids)

    # 计算变化量
    changed = newCentroids - centroids

    return changed, newCentroids

# 使用k-means分类
def kmeans(dataSet, k):
    # 随机取质心
    centroids = random.sample(dataSet, k)

    # 更新质心 直到变化量全为0
    changed, newCentroids = classify(dataSet, centroids, k)
    while np.any(changed != 0):
        changed, newCentroids = classify(dataSet, newCentroids, k)

    centroids = sorted(newCentroids.tolist())

    # 根据质心计算每个集群
    cluster = []
    clalist = calcDis(dataSet, centroids, k)
    minDistIndices = np.argmin(clalist, axis=1)
    for i in range(k):
        cluster.append([])
    for i, j in enumerate(minDistIndices):
        cluster[j].append(dataSet[i])

    return centroids, cluster


def main():
    # 创建数据集
    def createDataSet():
        return [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]

    dataset = createDataSet()
    centroids, cluster = kmeans(dataset, 3)
    print('质心为：%s' % centroids)
    print('集群为：%s' % cluster)

if __name__=='__main__':
    exit(main())

输出结果：

质心为：[[1.3333333333333333, 1.3333333333333333], [5.0, 4.0], [6.0, 3.5]]
集群为：[[[1, 1], [1, 2], [2, 1]], [[5, 4]], [[6, 4], [6, 3]]]

PS：

上面代码有个小问题：在迭代更新的过程中如果有的质心没有一个点离它最近，会有问题。

查了很多资料也不知道还怎样处理，看其他实现的代码都没注意这个问题，有知道怎么解决的希望能告诉我。

这里给个这样的例子：

数据集：[[1, 1], [1, 2], [2, 1], [4, 4], [4, 3], [3, 4]]

k = 3 并且正好随机到[1, 1], [1, 2], [2, 1]这三个。

第一次：

[[1, 1]] [[1, 2], [3, 4], [4, 4]] [[2, 1], [4, 3]]

质心分别为：

[1, 1] [2.67, 3.33] [3, 2]

第二次：

[[1, 1], [1, 2], [2, 1]] [[3, 4], [4, 3], [4, 4]] []

质心分别为：

[1.33, 1.33] [3.67, 3.67] [???]

这样有一个变成空的了。

644262163

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录