python实现k-means

    使用numpy实现,数据量大的时候可能需要微调。

# encoding: utf-8

"""
@author: Libing Wang
@time: 2021/3/26 9:51
@file: kmeans.py
@desc: 手动实现 k-means
"""

import random
import numpy as np
from matplotlib import pyplot as plt


def get_cluster(data, center_idx, k):
    """
    进行每一轮的聚簇
    :param data:待聚类的数据
    :param center_idx:簇中心索引
    :param k:簇的数量
    :return:当前轮次, 所有的簇, 即每一个数据属于哪个簇
    """
    center = data[center_idx]
    data_idx = np.delete(range(data.shape[0]), center_idx)
    sub_data = data[data_idx]
    sub_data_rep = np.repeat(sub_data, k, axis=0)
    center_rep = np.tile(center, (sub_data.shape[0], 1))
    distance = np.sqrt(np.sum(np.abs(sub_data_rep - center_rep) ** 2, axis=1))
    distance = np.reshape(distance, (-1, k))
    idx = np.argmin(distance, axis=-1)
    cluster = np.zeros(shape=(data.shape[0],))
    cluster[center_idx] = np.arange(k)
    cluster[data_idx] = idx
    return cluster


def k_means(data, k):
    """
    k-means算法实现
    :param data: 待聚类的数据
    :param k: 簇的数量
    :return: 每一个数据属于哪个簇
    """
    # 随机初始化簇心
    center_idx = random.sample(range(data.shape[0]), k)
    while True:
        cluster = get_cluster(data, center_idx, k)
        # 更新聚类中心
        update_center_idx = []
        for i in range(k):
            idx = np.where(cluster == i)
            c = np.mean(data[idx], axis=0)
            distance = np.sqrt(np.sum(np.abs(data[idx] - c) ** 2, axis=1))
            update_center_idx.append(idx[0][np.argmin(distance)])
        if center_idx == update_center_idx:
            break
        center_idx = update_center_idx
    return cluster


if __name__ == '__main__':
    data = np.random.normal(3, 10, (500, 2))
    cluster = k_means(data, 3)
    print(cluster)
    idx1 = np.where(cluster == 0)
    idx2 = np.where(cluster == 1)
    idx3 = np.where(cluster == 2)
    plt.scatter(data[idx1, 0], data[idx1, 1], marker='*')
    plt.scatter(data[idx2, 0], data[idx2, 1], marker='^')
    plt.scatter(data[idx3, 0], data[idx3, 1], marker='o')
    plt.show()

    聚类结果:

本程序是在python中完成,基于sklearn.cluster中的k-means聚类包来实现数据的聚类,对于里面使用的数据格式如下:(注意更改程序中的相关参数) 138 0 124 1 127 2 129 3 119 4 127 5 124 6 120 7 123 8 147 9 188 10 212 11 229 12 240 13 240 14 241 15 240 16 242 17 174 18 130 19 132 20 119 21 48 22 37 23 49 0 42 1 34 2 26 3 20 4 21 5 23 6 13 7 19 8 18 9 36 10 25 11 20 12 19 13 19 14 5 15 29 16 22 17 13 18 46 19 15 20 8 21 33 22 41 23 69 0 56 1 49 2 40 3 52 4 62 5 54 6 32 7 38 8 44 9 55 10 70 11 74 12 105 13 107 14 56 15 55 16 65 17 100 18 195 19 136 20 87 21 64 22 77 23 61 0 53 1 47 2 33 3 34 4 28 5 41 6 40 7 38 8 33 9 26 10 31 11 31 12 13 13 17 14 17 15 25 16 17 17 17 18 14 19 16 20 17 21 29 22 44 23 37 0 32 1 34 2 26 3 23 4 25 5 25 6 27 7 30 8 25 9 17 10 12 11 12 12 12 13 7 14 6 15 6 16 12 17 12 18 39 19 34 20 32 21 34 22 35 23 33 0 57 1 81 2 77 3 68 4 61 5 60 6 56 7 67 8 102 9 89 10 62 11 57 12 57 13 64 14 62 15 69 16 81 17 77 18 64 19 62 20 79 21 75 22 57 23 73 0 88 1 75 2 70 3 77 4 73 5 72 6 76 7 76 8 74 9 98 10 90 11 90 12 85 13 79 14 79 15 88 16 88 17 81 18 84 19 89 20 79 21 68 22 55 23 63 0 62 1 58 2 58 3 56 4 60 5 56 6 56 7 58 8 56 9 65 10 61 11 60 12 60 13 61 14 65 15 55 16 56 17 61 18 64 19 69 20 83 21 87 22 84 23 41 0 35 1 38 2 45 3 44 4 49 5 55 6 47 7 47 8 29 9 14 10 12 11 4 12 10 13 9 14 7 15 7 16 11 17 12 18 14 19 22 20 29 21 23 22 33 23 34 0 38 1 38 2 37 3 37 4 34 5 24 6 47 7 70 8 41 9 6 10 23 11 4 12 15 13 3 14 28 15 17 16 31 17 39 18 42 19 54 20 47 21 68 22
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值