K-center聚类的python实现


作者:张双双

介绍

K-center聚类和K-means聚类类似,都是通过迭代类中心点直至收敛,不同的是K-center的中心点必须是一个真实的样本点,而K-means并不需要。

函数介绍

class Kmedoid:
    def __init__(self, data, k):
        self.data = data
        self.k = k

    def randCent(self):  # 随机选取一个点
        random_index = random.randint(0, self.data.shape[0]-1)
        return random_index, self.data[random_index, :]

    def distance(self, vecA, vecB):  # 计算曼哈顿距离
        return sum(abs(vecA - vecB))

    def run(self):
        init_centers = []  # 初始化中心的列表
        init_indexs = []  # 被选中作为中心的点的下标
        while len(init_centers) < self.k:
            index, center = self.randCent()
            if index not in init_indexs:  # 保证选点不重复
                init_centers.append(center)
                init_indexs.append(index)
            else:
                continue

        while True:
            cluster_category = []  # 记录聚类结果
            for i in range(self.data.shape[0]):  # 遍历每一个点
                minv = np.inf  # 最小距离,初始为正无穷
                cluster_index = 0  # 所属簇的下标
                for index, center in enumerate(init_centers):  # 遍历每个中心
                    # 选取离得最近的中心作为归属簇
                    dist = self.distance(center, self.data[i, :])
                    if dist < minv:
                        minv = dist
                        cluster_index = index
                cluster_category.append(cluster_index)

            # 重新计算中心点
            new_indexs = [0 for i in range(len(init_centers))]  # 更新被选中作为中心的点的下标
            min_dists = [np.inf for i in range(len(init_centers))]  # 中心点对应最小距离
            for i in range(self.data.shape[0]):
                min_dist = 0  # 求与当前簇其他点的距离之和
                for j in range(self.data.shape[0]):  # 遍历每一个点
                    if cluster_category[i] == cluster_category[j]:  # 属于同一个簇才进行累加
                        min_dist += self.distance(self.data[i, :], self.data[j, :])
                if min_dist < min_dists[cluster_category[i]]:  # 保存数据到列表
                    min_dists[cluster_category[i]] = min_dist
                    new_indexs[cluster_category[i]] = i

            init_centers = []  # 新的聚类中心
            for index in new_indexs:
                init_centers.append(self.data[index, :])

            if new_indexs == init_indexs:  # 如果新的中心与上次相同则结束循环
                return cluster_category, init_centers
            else:
                init_indexs = new_indexs  # 更新聚类中心下标

实例

import random
import numpy as np
from sklearn.datasets import make_blobs
from matplotlib import pyplot
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

ir = datasets.load_iris() 
y = ir.data[:, :4] # #表示我们取特征空间中的4个维度

model = Kmedoid(data=y, k=3)
cluster_category, init_centers=model.run()

dat=np.concatenate([y,np.array(cluster_category).reshape(-1,1)],axis=1)
columns=ir.feature_names
columns.append('result')

X=pd.DataFrame(dat,columns=columns)


# 绘制结果
x0 = X[X['result'] == 0]
x1 = X[X['result'] == 1]
x2 = X[X['result'] == 2]
plt.scatter(x0['sepal length (cm)'], x0['sepal width (cm)'], c="red", marker='o', label='label0') 
plt.scatter(x1['sepal length (cm)'], x1['sepal width (cm)'], c="green", marker='*', label='label1') 
plt.scatter(x2['sepal length (cm)'], x2['sepal width (cm)'], c="blue", marker='+', label='label2') 
plt.xlabel('sepal length') 
plt.ylabel('sepal width') 
plt.legend(loc=2) 
plt.show()

在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: k-means是一种常用的聚类算法,Python中有多种库可以实现k-means聚类,比如scikit-learn、numpy等。 下面是一个使用scikit-learn库实现k-means聚类的示例代码: ```python from sklearn.cluster import KMeans import numpy as np # 生成数据 X = np.random.rand(100, 2) # 创建KMeans模型 kmeans = KMeans(n_clusters=3) # 进行聚类 kmeans.fit(X) # 获取聚类结果 labels = kmeans.labels_ # 获取聚类中心点 centers = kmeans.cluster_centers_ ``` 在上面的代码中,首先使用numpy库生成100个二维随机数据点。然后,创建了一个KMeans模型,并指定聚类数为3。最后,使用fit方法对数据进行聚类,获取聚类结果和聚类中心点。 需要注意的是,k-means算法依赖于初始随机点的选取,因此有可能会得到不同的聚类结果。为了避免这种情况,可以使用多次随机初始化来求解最优聚类结果。 ### 回答2: k-means聚类算法是一种常用的无监督学习方法,用于将数据集划分为k个不同的类别。下面是使用Python实现k-means聚类算法的过程: 1. 导入所需的库:我们首先要导入numpy和sklearn中的KMeans类。Numpy用于处理数值计算,而sklearn中的KMeans类是用于执行k-means聚类算法的。 2. 加载数据集:我们需要准备一个数据集,通常是一个二维的数据集,其中每个样本有两个特征。可以使用numpy中的loadtxt()函数加载文本文件或者手动创建一个数据集。 3. 初始化聚类中心:我们需要随机选择k个初始聚类中心。可以使用numpy中的randn()函数生成随机初始值。 4. 计算样本与聚类中心之间的距离:我们需要计算每个样本与每个聚类中心之间的距离。可以使用numpy中的euclidean_distances()函数计算欧几里得距离。 5. 将样本分配给最近的聚类中心:根据距离,将每个样本分配给与其距离最近的聚类中心。 6. 更新聚类中心:计算每个聚类的样本的平均值,并将其作为新的聚类中心。 7. 重复步骤5和步骤6,直到聚类中心不再变化或达到预定的迭代次数。 8. 输出聚类结果:将每个样本分配的聚类标签作为结果输出。 以上就是使用Python实现k-means聚类算法的步骤。通过这个算法,我们可以将数据集划分为k个不同的聚类。在实际应用中,我们可以根据聚类结果进行数据分析、分类和预测等任务。 ### 回答3: k-means聚类算法是一种常用的无监督学习算法,用于将数据集分成k个不同的簇。下面是k-means算法的Python实现。 1. 随机选择k个数据点作为初始的中心点。 2. 对数据集中的每个数据点,将其分配给最近的中心点,形成k个簇。 3. 对于每个簇,计算其中所有数据点的平均值,将这些平均值作为新的中心点。 4. 重复步骤2和3,直到中心点的位置不再改变。 下面是一个简单的Python实现示例: ```python import numpy as np def kmeans(data, k): # 随机初始化k个中心点 centers = data[np.random.choice(range(len(data)), k, replace=False)] while True: # 分配每个数据点到最近的中心点,形成k个簇 clusters = [[] for _ in range(k)] for point in data: distances = [np.linalg.norm(point - center) for center in centers] cluster_idx = np.argmin(distances) clusters[cluster_idx].append(point) # 计算每个簇的平均值作为新的中心点 new_centers = [] for cluster in clusters: new_centers.append(np.mean(cluster, axis=0)) # 如果中心点的位置不再改变,停止迭代 if np.all(centers == new_centers): break centers = new_centers return clusters # 示例用法 data = np.array([[1, 2], [3, 4], [1, 1], [2, 2], [4, 4], [5, 5]]) k = 2 clusters = kmeans(data, k) print(clusters) ``` 这个实现使用了NumPy库进行数值计算和数组操作,随机选择k个数据点作为初始中心点,并使用欧氏距离度量数据点和中心点之间的距离。通过迭代更新中心点的位置,直到收敛为止。最后返回k个簇的列表。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值