K-Means聚类算法

最新推荐文章于 2024-08-28 16:05:19 发布

骄阳少年爱算法

最新推荐文章于 2024-08-28 16:05:19 发布

阅读量4.4k

点赞数 5

文章标签：聚类算法 kmeans

本文链接：https://blog.csdn.net/gjwkk/article/details/123360561

版权

本文详细介绍了K-Means聚类算法的原理和步骤，包括簇中心的选择、距离计算、新质心更新以及停止条件。还提供了Python代码示例，展示了如何计算欧氏距离、更新质心并执行K-Means算法。此外，讨论了适用于不同距离度量的情况，如欧式距离、曼哈顿距离和余弦相似度，并指出在数据分布不规则时可能需要选择其他算法，如GMM。

摘要由CSDN通过智能技术生成

K-Means聚类算法

k-means算法又名k均值算法，K-means算法中的k表示的是聚类的k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个聚类的质心对该簇进行描述。

其算法思想大致为：先从样本集中随机选取k个样本作为簇中心，并计算所有样本与这k个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。

根据以上描述，我们大致可以猜测到实现kmeans算法的主要四点：

簇个数k的选择
各个样本点到“簇中心”的距离
根据新划分的簇，更新“簇中心”
重复上述2，3过程，直至“簇中心”没有移动

K-means算法步骤详解

1、K值的选择

k 的选择一般是按照实际需求进行决定，或在实现算法时直接给定 k 值。

2、距离的确定

将对象点分到距离聚类中心最近的那个簇中需要最近邻的度量策略，在欧式空间中采用的是欧式距离，在处理文档中采用的是余弦相似度函数，有时候也采用曼哈顿距离作为度量，不同的情况实用的度量公式是不同的。

欧式距离：

曼哈顿距离：

余弦相似度：

A与B表示向量(x1,y1)，(x2,y2)，分子为A与B的点乘，分母为二者各自的L2相乘，即将所有维度值的平方相加后开方。

3、新质心的计算

对于分类后的产生的k个簇，分别计算到簇内其他点距离均值最小的点最为质心（对于拥有坐标的簇可以计算没个簇坐标的均值作为质心）。

4、是否停止K-means

当质心不再改变，或给定loop最大次数loopLimit
当每个簇的质心，不再改变时就可以停止k-menas
当loop次数超过looLimit时，停止k-means
只需要满足两者的其中一个条件，就可以停止k-means
如果Step4没有结束k-means，就再执行step2-step3-step4
如果Step4结束了k-means，则就打印(或绘制)簇以及质心

5、Python代码实现

# -*- codeing = utf-8 -*-
# @Time : 2022/1/14 18:10
# @Author : lcl
# @File : K-means.py
# @Software : PyCharm
import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# 计算欧拉距离
def calcDis(dataSet, centroids, k):
    clalist = []
    for data in dataSet:
        diff = np.tile(data, (k,
                              1)) - centroids  # 相减   (np.tile(a,(2,1))就是把a先沿x轴复制1倍，即没有复制，仍然是 [0,1,2]。 再把结果沿y方向复制2倍得到array([[0,1,2],[0,1,2]]))
        squaredDiff = diff ** 2  # 平方
        squaredDist = np.sum(squaredDiff, axis=1)  # 和  (axis=1表示行)
        distance = squaredDist ** 0.5  # 开根号
        clalist.append(distance)
    clalist = np.array(clalist)  # 返回一个每个点到质点的距离len(dateSet)*k的数组
    return clalist


# 计算质心
def classify(dataSet, centroids, k):
    # 计算样本到质心的距离
    clalist = calcDis(dataSet, centroids, k)
    # 分组并计算新的质心
    minDistIndices = np.argmin(clalist, axis=1)  # axis=1 表示求出每行的最小值的下标
    newCentroids = pd.DataFrame(dataSet).groupby(
        minDistIndices).mean()  # DataFramte(dataSet)对DataSet分组，groupby(min)按照min进行统计分类，mean()对分类结果求均值
    newCentroids = newCentroids.values

    # 计算变化量
    changed = newCentroids - centroids

    return changed, newCentroids


# 使用k-means分类
def kmeans(dataSet, k):
    # 随机取质心
    centroids = random.sample(dataSet, k)

    # 更新质心 直到变化量全为0
    changed, newCentroids = classify(dataSet, centroids, k)
    while np.any(changed != 0):
        changed, newCentroids = classify(dataSet, newCentroids, k)

    centroids = sorted(newCentroids.tolist())  # tolist()将矩阵转换成列表 sorted()排序

    # 根据质心计算每个集群
    cluster = []
    clalist = calcDis(dataSet, centroids, k)  # 调用欧拉距离
    minDistIndices = np.argmin(clalist, axis=1)
    for i in range(k):
        cluster.append([])
    for i, j in enumerate(minDistIndices):  # enymerate()可同时遍历索引和遍历元素
        cluster[j].append(dataSet[i])

    return centroids, cluster


# 创建数据集
def createDataSet():
    return [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]


if __name__ == '__main__':
    dataset = createDataSet()
    centroids, cluster = kmeans(dataset, 2)
    print('质心为：%s' % centroids)
    print('集群为：%s' % cluster)
    for i in range(len(dataset)):
        plt.scatter(dataset[i][0], dataset[i][1], marker='o', color='green', s=40, label='原始点')
        #  记号形状       颜色      点的大小      设置标签
        for j in range(len(centroids)):
            plt.scatter(centroids[j][0], centroids[j][1], marker='x', color='red', s=50, label='质心')
            plt.show