算法笔记(16)K-Means++算法及Python代码实现

67 篇文章 0 订阅
49 篇文章 3 订阅
本文探讨了K-Means算法的局限性,尤其是在聚类中心数量预设和初始聚类中心选择上的问题。K-Means++算法通过改进聚类中心初始化,以提高聚类效果。详细介绍了其工作原理,包括随机选取首个中心点,计算样本与中心点距离,以及概率选择距离最远样本作为新中心的过程。并通过Python代码展示了算法实现。
摘要由CSDN通过智能技术生成

K-Means算法局限性:

(1)K-Means算法中聚类中心的个数K需要事先指定,这一点对于一些未知数据存在很大的局限性。
(2)在利用K-Means算法进行聚类之前,需要初始化K个聚类中心,聚类中心选择不好,对于K-Means算法有很大的影响。
为了解决因为初始化的问题带来K-Means算法的问题,改进的K-Means算法即K-Means++算法被提出。
K-Means++算法主要是为了能够在聚类中心的选择过程中选择较优的聚类中心。

K-Means++算法基本思路:

●在数据集中随机选择一个样本点作为第一个初始化的聚类中心;
●选择出其余的聚类中心:
   计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离,记为di;
  以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到K个聚类中心都被确定。
●对K个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。
K-Means++算法Python代码实现:

def get_centroids(points, k):
    '''KMeans++的初始化聚类中心的方法
    input:  points(mat):样本
            k(int):聚类中心的个数
    output: cluster_centers(mat):初始化后的聚类中心
    '''
    m, n = np.shape(points)
    cluster_centers = np.mat(np.zeros((k , n)))
    # 1、随机选择一个样本点为第一个聚类中心
    index = np.random.randint(0, m)
    cluster_centers[0, ] = np.copy(points[index, ])
    # 2、初始化一个距离的序列
    d = [0.0 for _ in range(m)]
 
    for i in range(1, k):
        sum_all = 0
        for j in range(m):
            # 3、对每一个样本找到最近的聚类中心点
            d[j] = nearest(points[j, ], cluster_centers[0:i, ])
            # 4、将所有的最短距离相加
            sum_all += d[j]
        # 5、取得sum_all之间的随机值
        sum_all *= random()
        # 6、获得距离最远的样本点作为聚类中心点
        for j, di in enumerate(d):
            sum_all -= di
            if sum_all > 0:
                continue
            cluster_centers[i] = np.copy(points[j, ])
            break
    return cluster_centers

输出最终的聚类中心结果:
4.251983540560974 -4.984077082890314
-3.50576728936817 4.447931702030049
-4.545279350193974 -4.630037099534128
4.539765541289269 4.54315573908832
K-Means++算法聚类效果图:

 K-means++聚类效果图

想要完整代码的朋友,可toutiao号搜索“编程研究坊”关注后s信我,回复“算法笔记16“获取 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程研究坊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值