【机器学习】K-means算法原理以及Python简单实现

最新推荐文章于 2023-06-14 10:21:30 发布

Yakuho

最新推荐文章于 2023-06-14 10:21:30 发布

阅读量410

点赞数

分类专栏： Python机器学习文章标签：算法聚类

本文链接：https://blog.csdn.net/weixin_41861700/article/details/107001193

版权

Python机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

K-均值聚类算法（K-means）

什么是K-means

K-means是六大聚类算法中最简单的其中一种。而聚类是一种无监督学习，它将相似的对象归到同一个簇中。在介绍K-means之前，先介绍什么是簇识别。簇识别给出聚类结果的含义。假定有一些数据，现在将相似的数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于，分类的目标事先已知，而聚类的目标没有预先定义的，所以聚类有时也被称为无监督分类。
聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。相似这一概念取决于所选择的相似度计算方法。

算法原理

K-means是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每一个簇通过其质心(centroid)，即簇中所有点的中心来描述。
K-means的工作流程：首先通过给定数据集，计算出数据的最小最大范围，通过这个范围，随机确定k个初始点作为质心。然后通过遍历所有的数据点，通过计算与每个质心的距离，根据距离的大小，将数据点归类于质心所对应的簇中，完成一次遍历后，更新质心，值为该簇中所有点的平均值。以后不断进行计算，直到收敛。收敛条件是所有点上一次被归类到的簇与这次被归类到的簇一样，如果其中有一个点的归类簇发生了变化，都要继续计算。
图示：
在这里插入图片描述

图来自CSDN博主：tensory.online

算法优缺点

优点：容易实现
缺点：可能收敛到局部最小值，在大规模数据集上收敛慢

代码实现

from numpy import sqrt, power, shape, mat, zeros, inf, nonzero, mean, max, min
from numpy.random import rand


def distanceEuclid(vecA, vecB):
    # 用欧几里得坐标算距离
    return sqrt(sum(power(vecA - vecB, 2)))


def randCenter(dataSet, k):
    # 生成k个随机质心
    # 获取数据的总列数
    n = shape(dataSet)[1]
    # 初始化一个质心矩阵 k * n  k行n列的0矩阵
    centroids = mat(zeros((k, n)))
    for j in range(n):
        minJ = min(dataSet[:, j])    # 计算数据集第j列的最小值
        maxJ = max(dataSet[:, j])    # 计算数据集第j列的最大值
        rangeJ = float(maxJ - minJ)  # 最大值-最小值 计算最大差值
        # 生成质心矩阵第j列的值，通过均匀分布的随机数
        centroids[:, j] = minJ + rangeJ * rand(k, 1)    # 值的范围∈[minJ, maxJ]
    return centroids


def k_means(dataSet, k, distMeas=distanceEuclid, createCent=randCenter):
    # 将数据集初始化为mat矩阵对象
    dataSet = mat(dataSet)
    # 获取数据集的总点数
    m = shape(dataSet)[0]
    # 生成数据集点数的簇矩阵并初始化为0     第一列保存该点被归类的质心索引，第二列保存该点与质心的距离
    clusterAssment = mat(zeros((m, 2)))
    # 初始化k个质心矩阵
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):  # 分别取出全部点 并逐一与所有质心进行距离计算 把距离第j个质心最近时，将该点归类为j
            minDist = inf   # 先初始化最小值为无限大
            minIndex = -1
            for j in range(k):      # 第i点逐一与所有质心进行距离计算
                # 算出第i点与第j个质心的距离
                distJI = distMeas(centroids[j, :], dataSet[i, :])
                # 与上次的minDist判断 如果更小则更新质心
                if distJI < minDist:
                    minDist = distJI    # 质心距离
                    minIndex = j        # 质心索引
            # 如果其中第i个点被归类的质心与上次的不一样 则继续下次的计算，否则如果全部点的质心都没有发生变化则认为收敛
            if clusterAssment[i, 0] != minIndex:
                clusterChanged = True
            # 并更新簇矩阵第i个点的记录[质心索引， 与该质心距离的平方]
            clusterAssment[i, :] = minIndex, minDist ** 2
        # 重新初始化质心
        for cent in range(k):   # 遍历k个质心
            # 根据簇矩阵用k个质心分类数据点，即第k_1个质心对应是那些数据点， 第k_2个质心对应是那些数据点， 等......
            # array.A->将矩阵转为array对象  array.A == cent即判断array内的所有元素， 例如[1 2 3] == 3 返回->[False, False, True]
            # nonzero 返回不是0的元素的序列， 例如[False, False, True] 返回->[2]
            # 若是二维数据， 则
            #     >>> x = np.array([[3, 0, 0], [0, 4, 0], [5, 6, 0]])
            #     >>> x
            #     array([[3, 0, 0],
            #            [0, 4, 0],
            #            [5, 6, 0]])
            #     >>> np.nonzero(x)
            #     (array([0, 1, 2, 2]), array([0, 1, 0, 1]))
            #     横坐标                 纵坐标
            #     >>> np.transpose(np.nonzero(x))
            #     array([[0, 0],
            #            [1, 1],
            #            [2, 0],
            #            [2, 1])
            # 由于簇矩阵clusterAssment保存的是2列数据，0为质心索引，1为质心距离
            # clusterAssment[:, 0].A -> 取出所有行的第一列数据并转为array对象
            # nonzero(** == cent) 获取被归类为第cent个质心的数据点的索引
            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
            # 被分类到当前第cent个点的所有点的各维度按列求平均值 生成1 * n列的矩阵并更新到质心矩阵中
            centroids[cent, :] = mean(ptsInClust, axis=0)
    # 返回  质心点      簇矩阵[质心索引， 与该质心距离的平方]
    return centroids, clusterAssment

附上基于matplotlib.plot.plot写的K-means可视化代码

from matplotlib.pyplot import style, plot, show
from numpy import mat, nonzero, shape
style.use('ggplot')
c = {0: 'r', 1: 'g', 2: 'b', 3: 'y', 4: 'c', 5: 'm', 6: 'k'}


def k_means_show(data, result):
    data = mat(data)
    t0, t1 = result
    for i in range(shape(t0)[0]):
        points = data[nonzero(t1.A == i)[0]]
        center = t0[i, :]
        for point in points:
            plot([center[0, 0], point[0, 0]], [center[0, 1], point[0, 1]], marker='o', markersize=15,
                 color=c[i % 6], alpha=0.4)
    show()

效果如下
在这里插入图片描述

Yakuho

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】K-means算法原理以及Python简单实现

K-均值聚类算法（K-means）什么是K-means算法原理算法优缺点代码实现什么是K-meansK-means是六大聚类算法中最简单的其中一种。而聚类是一种无监督学习，它将相似的对象归到同一个簇中。在介绍K-means之前，先介绍什么是簇识别。簇识别给出聚类结果的含义。假定有一些数据，现在将相似的数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于，分类的目标事先已知，而聚类的目标没有预先定义的，所以聚类有时也被称为无监督分类。聚类分析试图将相似对象归入同一簇，将不相似对象
复制链接

扫一扫