python中实现K-Means聚类算法

最新推荐文章于 2022-11-10 17:16:14 发布

VIP文章 Cedric_h

最新推荐文章于 2022-11-10 17:16:14 发布

阅读量516

点赞数 1

分类专栏： python 文章标签： K-Means 数据挖掘聚类 python

本文链接：https://blog.csdn.net/uyy203/article/details/90735664

版权

聚类问题是数据挖掘的基本问题，它的本质是将n 个数据对象划分为k个聚类，以便使得所获得的聚类满足以下条件：同一聚类中的数据对象相似度较高；不同聚类中的对象相似度较小。
它的基本思想是以空间中k个点为中心，进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果次更新各聚类中心的值，直至得到最好的聚类结果。

原始数据：

划分聚类数据：
在这里插入图片描述

算法的基本步骤

第一步：从n个数据对象任意选择k个对象作为初始聚类中心，并设定最大迭代次数；
第二步：计算每个对象与k个中心点的距离，并根据最小距离对相应对象进行划分，即，把对象划分到与他们最近的中心所代表的类别中去；
第三步：对于每一个中心点，遍历他们所包含的对象，计算这些对象所有维度的和的均值，获得新的中心点；
第四步：如果聚类中心与上次迭代之前相比，有所改变，或者，算法迭代次数小于给定的最大迭代次数，则继续执行第2 、3两步，否则，程序结束返回聚类结果。
流程图

K-means算法运行过程

def main():
    #step1: load data
    print("load data...")
    dataSet=[]
    dataSetFile = open('./testSet/testSet.txt')
    for line in dataSetFile:
        lineAttrubute = line.strip().split('\t')
        dataSet.append([float(lineAttrubute[0]),float(lineAttrubute[1])])

    #step2: clustering
    print("clustering...")

    dataSet=np.mat(dataSet)

    k=4
    n=10000
    centers_result,clusters_assignment_result = kmeans(dataSet,k,n)

    #step3: show the clusters and centers
    print("show the clusters and centers...")

    showCluster(dataSet,k,centers_result,clusters_assignment_result)

initialCenters函数通过使用numpy库的 Initialize center函数通过使用numpy库的 zeros函数和random.uniform函数，随机选取了k个数据做聚类中心，并将结果存放在了k个数据做聚类中心，并将结果存放在 Numpy的Array对象centers中

#create centers, the number of centers is k
def initialCenters(data,k):
    nameSample,dim = data.shape
    centers = np.zeros((k,dim))
    for i in range(k):
        index = int(np.random.uniform(0,nameSample))
        centers[i,:] = data[index,

最低0.47元/天解锁文章

Cedric_h

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python中实现K-Means聚类算法

聚类问题是数据挖掘的基本问题，它的本质是将n 个数据对象划分为k个聚类，以便使得所获得的聚类满足以下条件：同一聚类中的数据对象相似度较高；不同聚类中的对象相似度较小。它的基本思想是以空间中k个点为中心，进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果次更新各聚类中心的值，直至得到最好的聚类结果。**算法的基本步骤**第一步：...
复制链接

扫一扫