《机器学习实战》之二分K-均值聚类算法的python实现

最新推荐文章于 2020-10-20 15:40:34 发布

HelloWorld_EE

最新推荐文章于 2020-10-20 15:40:34 发布

阅读量3.5k

点赞数 2

分类专栏： python 机器学习文章标签：二分k-均值聚类算法机器学习 python

本文链接：https://blog.csdn.net/u010412719/article/details/47112039

版权

本文介绍了二分K-均值聚类算法的原理和Python实现，讨论了在实际运行中遇到的问题，以及尝试通过选择最大SSE的簇进行划分来优化算法，但未取得预期效果。作者计划通过寻找最大SSE簇并分解来进一步解决问题。

摘要由CSDN通过智能技术生成

《机器学习实战》之二分K-均值聚类算法的python实现

上面博文介绍了K-均值聚类算法及其用python实现，上篇博文中的两张截图，我们可以看到，由于K-均值聚类算法中由于初始质心的选取，会造成聚类的局部最优，并不是全局最优，因此，会造成聚类的效果并不理想，为克服K-均值算法收敛于局部最小值的问题，就有了二分K-均值算法。

二分K-均值聚类算法

二分K均值算法是基本K均值算法的直接扩充，其基本思想是：为了得到K个簇，首先将所有点的集合分裂成两个簇，然后从这些簇中选取一个继续分裂，迭代直到产生K个簇；二分K均值的关键是如何选择待分裂簇，选择策略主要有两种，一是选择包含矢量个数最多的簇进行分裂，二是选择具有最大SSE（误差的平方和）的簇分裂。

二分k均值算法的伪代码如下：

将所有数据点看成一个簇
当簇数目小于k时
对每一个簇
计算总误差
在给定的簇上面进行k-均值聚类（k=2）
计算将该簇一分为二后的总误差
选择使得误差最小的那个簇进行划分操作

另一种做法是选择SSE最大的簇进行划分，直到簇数目达到用户指定的数目为止。

python实现如下

环境：python 3.4 使用的库：numpy、matplotlib

biKmeans.py:此文件中的kmeans算法与上篇博文中的代码一致，在上一篇博文中注释写的比较详细，这里就没有在详细注释，若需要看注释，可以看上一篇博文


# 二分k均值算法的伪代码如下：
#***************************************************************
#将所有数据点看成一个簇
#
#当簇数目小于k时
#
#       对每一个簇
#
#              计算总误差
#
#              在给定的簇上面进行k-均值聚类（k=2）
#
#              计算将该簇一分为二后的总误差
#
#       选择使得误差最小的那个簇进行划分操作
#
#*************************************************************** 

from numpy import *  
import time  
import matplotlib.pyplot as plt  


# calculate Euclidean distance  
def euclDistance(vector1, vector2):  
    return sqrt(sum(power(vector2 - vector1, 2)))  

# init centroids with random samples  
def initCentroids(dataSet, k):  
    numSamples, dim = dataSet.shape  
    centroids = zeros((k, dim))  
    for i in range(k):  
        index = int(random.uniform(0, numSamples)) 
        print(index)
        centroids[i, :] = dataSet[index, :]  
    return centroids  

# k-means cluster  
def kmeans(dataSet, k):  
    numSamples = dataSet.shape[0]  
    # first column stores which cluster this sample belongs to,  
    # second column stores the error between this sample and its centroid  
    clusterAssment = mat(zeros((numSamples, 2)))  
    clusterChanged = True  

    ## step 1: init centroids  
    centroids = initCentroids(dataSet, k)  

    while<

最低0.47元/天解锁文章

HelloWorld_EE

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
《机器学习实战》之二分K-均值聚类算法的python实现

《机器学习实战》之二分K-均值聚类算法的python实现上面博文介绍了K-均值聚类算法及其用python实现，上篇博文中的两张截图，我们可以看到，由于K-均值聚类算法中由于初始质心的选取，会造成聚类的局部最优，并不是全局最优，因此，会造成聚类的效果并不理想，为克服K-均值算法收敛于局部最小值的问题，就有了二分K-均值算法。二分K-均值聚类算法二分K均值算法是基本K均值算法的直接扩充，其基本思想是：为
复制链接

扫一扫

专栏目录