K-means聚类方法

Yeahhh！

已于 2024-05-17 17:08:06 修改

阅读量1.7k

点赞数 18

分类专栏：机器学习文章标签：机器学习 kmeans 聚类

于 2024-04-09 21:44:47 首次发布

本文链接：https://blog.csdn.net/qq_62767376/article/details/137568809

版权

机器学习专栏收录该内容

16 篇文章 4 订阅

订阅专栏

本文介绍了K-means聚类算法的步骤，包括计算欧几里得距离，确定样本最近的簇中心，以及重新计算聚类中心。通过一步步实现相关函数，展示了如何在Python中应用这些技术进行数据聚类。

摘要由CSDN通过智能技术生成

第1关：计算欧几里得距离

任务描述

本关实现一个函数来计算欧几里得距离。

编程要求

本关卡要求你实现函数 euclid_distance，在右侧编辑器 Begin-End 区间补充代码，需要填充的代码块如下：

# -*- coding: utf-8 -*-
import numpy as np
def euclid_distance(x1, x2):
"""计算两个点之间点欧式距离
参数:
x1-numpy数组
x2-numpy数组
返回值：
ret-浮点型数据
"""
# 请在此添加实现代码 #
ret = 0
#********** Begin *********#
#********** End ***********#
return ret

测试说明

平台将对你的函数输入两个 Numpy 数组，计算欧式距离，比对函数 euclid_distance 的输出结果与正确结果的差异，只有完全正确才能进入下一关。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
import numpy as np
def euclid_distance(x1, x2):
    """计算欧几里得距离
    参数:
        x1 - numpy数组
        x2 - numpy数组
    返回值：
        distance - 浮点数，欧几里得距离
    """
    distance = 0
    #   请在此添加实现代码     #
    #********** Begin *********#
    distance = np.sqrt(np.sum(np.square(x1-x2)))
    #********** End ***********#
    return distance

第2关：计算样本的最近邻聚类中心

任务描述

本关实现一个函数来计算距离每个样本最近的簇中心。

编程要求

本关卡要求你实现函数 nearest_cluster_center，在右侧编辑器 Begin-End 区间补充代码，需要填充的代码块如下：

# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
def nearest_cluster_center(x, centers):
"""计算各个聚类中心与输入样本最近的
参数:
x - numpy数组
centers - numpy二维数组
返回值：
cindex - 整数，簇中心的索引值，比如3代表分配x到第3个聚类中
"""
cindex = -1
from distance import euclid_distance
# 请在此添加实现代码 #
#********** Begin *********#
#********** End ***********#
return cindex

测试说明

平台将对你的函数输入一个整数向量代表样本和一个二维数组代表一组簇向量，比对函数 nearest_cluster_center 的输出结果与正确结果的差异，只有完全正确才能进入下一关。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
def nearest_cluster_center(x, centers):
    """计算各个聚类中心与输入样本最近的
    参数:
        x - numpy数组
        centers - numpy二维数组
    返回值：
        cindex - 整数，类中心的索引值，比如3代表分配x到第3个聚类中
    """
    cindex = -1
    from distance import euclid_distance
    #   请在此添加实现代码     #
    #********** Begin *********#
    #计算点到各个中心的距离
    n_clusters = len(centers)
    distance_list = []
    for cluster_index in range(n_clusters):
        distance_list.append((cluster_index, euclid_distance(x, centers[cluster_index])))
    #找出最小距离的类
    distance_list = sorted(distance_list, key=lambda s:s[1])
    cindex = distance_list[0][0]
    #********** End ***********#    
    return cindex

第3关：计算各聚类中心

任务描述

本关实现一个函数来计算各簇的中心。

编程任务

本关卡要求你实现函数 estimate_centers，在右侧编辑器 Begin-End 区间补充代码，需要填充的代码块如下：

# -*- coding: utf-8 -*-
import numpy as np
def estimate_centers(X, y_estimated, centers):
"""重新计算各聚类中心
参数:
X - numpy二维数组，代表数据集的样本特征矩阵
y_estimated - numpy数组，估计的各个样本的聚类中心索引
n_clusters - 整数，设定的聚类个数
返回值：
centers - numpy二维数组，各个样本的聚类中心
"""
centers = np.zeros((n_clusters, X.shape[1]))
# 请在此添加实现代码 #
#********** Begin *********#
#********** End ***********#
return centers

测试说明

输入一组向量（数据集）、一个数组（每个元素分配的类中心编号）和一组向量（各聚类中心），输出一组向量（各聚类中心）。平台比对函数 estimate_centers 的输出结果与正确结果的差异，只有完全正确才能进入下一关。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
def estimate_centers(X, y_estimated, n_clusters):
    """重新计算各聚类中心
    参数:
        X - numpy二维数组，代表数据集的样本特征矩阵
        y_estimated - numpy数组，估计的各个样本的聚类中心索引
        n_clusters - 整数，设定的聚类个数
    返回值：
        centers - numpy二维数组，各个样本的聚类中心
    """
    import numpy as np
    centers = np.zeros((n_clusters, X.shape[1]))
    #   请在此添加实现代码     #
    #********** Begin *********#
    for i in range(n_clusters):
        centers[i] = np.mean(X[y_estimated==i], 0)
    #********** End ***********#
    return centers

第4关：评估聚类效果

本关任务

本关实现准确度评估函数，来评估聚类算法的效果。

编程要求

本关卡要求你实现函数 acc，在右侧编辑器 Begin-End 区间补充代码，需要填充的代码块如下：

# -*- coding: utf-8 -*-
def acc(x1, x2):
"""计算精度
参数:
x1 - numpy数组
x2 - numpy数组
返回值：
value - 浮点数，精度
"""
value = 0
# 请在此添加实现代码 #
#********** Begin *********#
#********** End ***********#
return value

测试说明

平台将对你的函数输入两个整数向量，比对函数 acc 的输出结果与正确结果的差异，只有完全正确才能通关。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
def acc(x1, x2):
    """计算精度
    参数:
        x1 - numpy数组
        x2 - numpy数组
    返回值：
        value - 浮点数，精度
    """
    value = 0
    #   请在此添加实现代码     #
    #********** Begin *********#
    import numpy as np
    value = float(np.sum(x1==x2))/len(x1)
    #********** End ***********#
    return value

第5关：组合已实现的函数完成K-means算法

本关任务

本关综合前面四个关卡的内容来实现K-means聚类算法。

编程任务

本关卡要求你完整如下代码块中星号圈出来的区域，实现K-means的核心算法步骤：

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from distance import euclid_distance
from estimate import estimate_centers
from loss import acc
from near import nearest_cluster_center
#随机种子对聚类的效果会有影响，为了便于测试，固定随机数种子
np.random.seed(5)
#读入数据集
dataset = pd.read_csv('./data/iris.csv')
#取得样本特征矩阵
X = dataset[['150','4','setosa','versicolor']].as_matrix()
y = np.array(dataset['virginica'])
#读入数据
n_clusters, n_iteration = input().split(',')
n_clusters = int(n_clusters)#聚类中心个数
n_iteration = int(n_iteration)#迭代次数
#随机选择若干点作为聚类中心
point_index_lst = np.arange(len(y))
np.random.shuffle(point_index_lst)
cluster_centers = X[point_index_lst[:n_clusters]]
#开始算法流程
y_estimated = np.zeros(len(y))
# 请在此添加实现代码 #
#********** Begin *********#
#********** End ***********#
print('%.3f' % acc(y_estimated, y))

测试说明

平台将比对你的实现代码与正确结果的差异，结果正确则祝贺你完成了本实训。

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from distance import euclid_distance
from estimate import estimate_centers
from loss import acc
from near import nearest_cluster_center
#随机种子对聚类的效果会有影响，为了便于测试，固定随机数种子
np.random.seed(5)
#读入数据集
dataset = pd.read_csv('./data/iris.csv')
#取得样本特征矩阵
X = dataset[['150','4','setosa','versicolor']].as_matrix()
y = np.array(dataset['virginica'])
#读入数据
n_clusters, n_iteration = input().split(',')
n_clusters = int(n_clusters)#聚类中心个数
n_iteration = int(n_iteration)#迭代次数
#随机选择若干点作为聚类中心
point_index_lst = np.arange(len(y))
np.random.shuffle(point_index_lst)
cluster_centers = X[point_index_lst[:n_clusters]]
#开始算法流程
y_estimated = np.zeros(len(y))
#   请在此添加实现代码     #
#********** Begin *********#
for iter in range(n_iteration):
    for xx_index in range(len(X)):
        #计算各个点最接近的聚类中心
        y_estimated[xx_index] = nearest_cluster_center(X[xx_index], cluster_centers)
    #计算各个聚类中心
    cluster_centers = estimate_centers(X, y_estimated, n_clusters)
#********** End ***********#
print('%.3f' % acc(y_estimated, y))