K-means聚类算法第2关:计算样本的最近邻聚类中心

任务描述

本关实现一个函数来计算距离每个样本最近的簇中心。

相关知识

在前一个关卡中,我们学习了欧几里得距离计算函数,对于任意两个样本,我们可以得出其距离远近。本关,我们基于这个函数,来计算距离每个样本最近的簇中心。

聚类算法中一个重要的步骤就是,来计算每个样本最近的簇中心。对于一个样本 x 和 k 个簇中心C=(C1​,C2​,…,Ck​),我们可以通过如下公式计算距离 x 最近的簇 i。

\bar{y_{i}} = argmin_{i}dist(x,C_{i})

其中公式:

dist(x,C_{i})

代表样本 x 与簇中心Ci​的欧几里得距离,argmini​代表最小值所在的序号 i。

编程要求

本关卡要求你实现函数 nearest_cluster_center,在右侧编辑器 Begin-End 区间补充代码,需要填充的代码块如下:

  1. # -*- coding: utf-8 -*-
  2. # -*- coding: utf-8 -*-
  3. def nearest_cluster_center(x, centers):
  4. """计算各个聚类中心与输入样本最近的
  5. 参数:
  6. x - numpy数组
  7. centers - numpy二维数组
  8. 返回值:
  9. cindex - 整数,簇中心的索引值,比如3代表分配x到第3个聚类中
  10. """
  11. cindex = -1
  12. from distance import euclid_distance
  13. # 请在此添加实现代码 #
  14. #********** Begin *********#
  15. #********** End ***********#
  16. return cindex

测试说明

平台将对你的函数输入一个整数向量代表样本和一个二维数组代表一组簇向量,比对函数 nearest_cluster_center 的输出结果与正确结果的差异,只有完全正确才能进入下一关。


开始你的任务吧,祝你成功!

# -*- coding: utf-8 -*-
def nearest_cluster_center(x, centers):
    """计算各个聚类中心与输入样本最近的
    参数:
        x - numpy数组
        centers - numpy二维数组
    返回值:
        cindex - 整数,类中心的索引值,比如3代表分配x到第3个聚类中
    """
    cindex = -1
    from distance import euclid_distance
    #   请在此添加实现代码     #
    #********** Begin *********#
    
    #计算点到各个中心的距离
    n_clusters = len(centers)
    distance_list = []
    for cluster_index in range(n_clusters):
        distance_list.append((cluster_index, euclid_distance(x, centers[cluster_index])))
    #找出最小距离的类
    distance_list = sorted(distance_list, key=lambda s:s[1])
    cindex = distance_list[0][0]
    
    #********** End ***********#
    return cindex

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 下面是一个简单的使用Python实现K-Means算法的代码: ``` import numpy as np import matplotlib.pyplot as plt # 生成随机数据 np.random.seed(0) X = np.random.randn(100, 2) # 初始化聚类中心 k = 3 centers = X[:k, :] # 迭代更新聚类中心 while True: # 计算每个样本聚类中心距离 distances = np.sqrt(((X - centers[:, np.newaxis]) ** 2).sum(axis=2)) # 分配样本最近聚类中心 labels = distances.argmin(axis=0) # 更新聚类中心 new_centers = np.array([X[labels == i].mean(axis=0) for i in range(k)]) # 判断是否收敛 if np.all(centers == new_centers): break centers = new_centers # 可视化聚类结果 plt.scatter(X[:, 0], X[:, 1], c=labels) plt.scatter(centers[:, 0], centers[:, 1], marker='*', s=200, c='r') plt.show() ``` 上述代码中,我们首先生成了一个二维的随机数据集X,然后初始化了三个聚类中心,接着进行了迭代更新聚类中心的过程,直到聚类中心不再变化为止。最后,我们用matplotlib库将聚类结果可视化出来。 ### 回答2: K-means是一种常用的聚类算法,它通过将数据样本分配给K个不同的聚类中心,以使样本与所属聚类中心距离之和最小化。以下是一个简单的K-means算法的Python代码示例: ```python import numpy as np from sklearn.cluster import KMeans # 创建样本数据 X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) # 定义K-means模型 kmeans = KMeans(n_clusters=2, random_state=0) # 训练模型 kmeans.fit(X) # 获取聚类中心 centroids = kmeans.cluster_centers_ # 输出每个样本所属的聚类 labels = kmeans.labels_ # 打印结果 print('聚类中心:', centroids) print('每个样本聚类:', labels) ``` 上述代码中,我们首先导入所需的库,然后定义了一个包含6个样本数据的矩阵X。接下来,我们创建了一个K-means聚类模型,其中n_clusters参数设置为2,表示我们希望将样本聚类成两个。然后,我们使用fit方法训练模型,并通过cluster_centers_属性获取聚类中心的坐标。最后,我们通过labels_属性获取每个样本所属的聚类的标签。 运行代码后,我们会得到类似以下的输出结果: ``` 聚类中心: [[1. 2.] [4. 2.]] 每个样本聚类: [0 1 0 0 1 0] ``` 说明了样本聚类中心分别是[1, 2]和[4, 2],每个样本所属的聚类分别是0、1、0、0、1、0。 ### 回答3: k-means是一种常用的聚类算法,可以对数据进行分类。下面是一个基于Python实现的简单的k-means代码示例: ```python import numpy as np def kmeans(X, k, max_iters=100): n_samples, n_features = X.shape # 随机初始化k个中心 centroids = X[np.random.choice(n_samples, k, replace=False)] for _ in range(max_iters): # 为每个样本找到最近中心 distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=-1) labels = np.argmin(distances, axis=1) # 更新中心每个样本的均值 new_centroids = np.array([X[labels == i].mean(axis=0) for i in range(k)]) # 如果中心没有变化,停止迭代 if np.all(centroids == new_centroids): break centroids = new_centroids return labels # 示例数据 X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) k = 2 # 调用k-means算法 labels = kmeans(X, k) print(labels) ``` 该代码首先随机初始化k个中心,然后通过迭代的方式进行更新。在每次迭代中,首先计算每个样本到所有中心的欧式距离,然后为每个样本分配最近标签。接下来,更新每个中心为该中所有样本的均值。如果中心没有变化,则停止迭代。最后,返回每个样本所属的标签。 在示例代码中,我们使用一个简单的2维数据作为示例。调用`kmeans`函数进行聚类,并打印每个样本所属的标签。运行代码后可以看到输出结果为`[0 0 0 1 1 1]`,表示前三个样本属于第一个,后三个样本属于第二个

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

畜牧当道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值