kmeans算法（python实现）

最新推荐文章于 2023-08-29 22:21:38 发布

jgzquanquan

最新推荐文章于 2023-08-29 22:21:38 发布

阅读量1.2k

点赞数

分类专栏： python 文章标签：算法 python 数据 numpy

本文链接：https://blog.csdn.net/jgzquanquan/article/details/74178179

版权

python 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

数据结构

6 篇文章 0 订阅

订阅专栏

import numpy as np
import matplotlib.pyplot as plt
#Initialize center函数通过使用numpy库的 zeros函数和random.uniform函数，随机选取 了k个数据做聚类中心，
# 并将结果存放在 了k个数据做聚类中心，并将结果存放在 Numpy的Array对象centers中
def InitCenters(dataSet,k):
    numSample,dim=dataSet.shape#获得数组的维度
    centers=np.zeros((k,dim))
    for i in range(k):
        index=int(np.random.uniform(0,numSample))#随机得到k个质心
        centers[i,:]=dataSet[index,:]
    print(centers)
    return centers
#Dist2Centers这个函数用来计算一个数据点到所有 聚类中心的距离，将其存放在dis2cents中返回
def Dist2Centers(sample,centers):
    k =centers.shape[0]
    dis2cents=np.zeros(k)
    for i in range(k):
        dis2cents[i]=np.sqrt(np.sum(np.power(sample-centers[i,:],2)))
        return dis2cents
def kmeans(dataSet,k,iterNum):
    numSamples=dataSet.shape[0]
    iterCount=0
    #clusterAssignment保存着样本属于哪个数据集
    clusterAssignment=np.zeros(numSamples)
    clusterChanged=True
    #初始化中心点
    centers=InitCenters(dataSet,k)
    while clusterChanged and iterCount<iterNum:
        #遍历每个样本
        for i in range(numSamples):
            dis2cent=Dist2Centers(dataSet[i,:],centers)
            minIndex=np.argmin(dis2cent)
            #更新所属的类
            if clusterAssignment[i]!=minIndex:
                clusterChanged=True
                clusterAssignment[i]=minIndex
        #更新中心点
        for j in range(k):
            pointsInCluster =dataSet[np.nonzero(clusterAssignment[:]==j)[0]]
            centers[j:] =np.mean(pointsInCluster,axis=0)
    print("聚类完成")
    return centers,clusterAssignment
def showCluster(dataSet,k,centers,clusterAssignment):
    numSamples,dim=dataSet
    mark=['or','ob','og','om']
    #画出所有样本
    for i in range(numSamples):
        markIndex =int(clusterAssignment[i])
        plt.plot(dataSet[i,0],dataSet[i,1],mark[markIndex])
    mark =['Dr','Db','Dg','Dm']
    # 画中心点
    for i in range(k):
        plt.plot(centers[i,0],centers[i,1],mark[i],markersize=17)
    plt.show()
def main():
    #第一步：加载数据
    print("第一步：加载数据")
    dataSet=[]
    dataSetFile=open('testSet.txt','r')
    for line in dataSetFile:
        lineArr=line.strip().split('\t')
        dataSet.append([float(lineArr[1]),float(lineArr[2])])
    #第二步：聚类
    print("第二步：聚类")
    dataSet=np.mat(dataSet)
    k=4      # k为分成几类的参数
    centers_result,clusterAssignment_result=kmeans(dataSet,k,100)
    #第三步：展示结果
    print("第三步：展示结果")
    showCluster(dataSet,k,centers_result,clusterAssignment_result)
main()

问题定义：聚类问题是数据挖掘的基本问题，它的本质是将n 个数据对象划分为k个聚类，以便使得所获得的聚类满足以下条件：同一聚类中的数据对象相似度较高；不同聚类中的对象相似度较小。 K-means算法就是解决这类问题的经典聚类算法，它的基本思想是以空间中k个点为中心，进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果

K-means算法步骤：

1.从n个数据对象任意选择k 个对象作为初始聚类中心；并设定最大迭代次数

2.计算每个对象与k个中心点的距离并根据最小距离对相应对象进行划分，即把对象划分到与他们最近的中心所代表的类别中去；

3.对于每一个中心点，遍历他们所包含的对象，计算这些对象所有维度的和的均值，获得新的中心点

4.如果聚类中心与上次迭代之前相比，有所改变，或者算法迭代次数小于给定的最大迭代次数，则继续执行第2 、3两步，否则，程序结束返回聚类结果。

Python3.6实现如下：

jgzquanquan

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
kmeans算法（python实现）

import numpy as npimport matplotlib.pyplot as plt#Initialize center函数通过使用numpy库的 zeros函数和random.uniform函数，随机选取了k个数据做聚类中心，# 并将结果存放在了k个数据做聚类中心，并将结果存放在 Numpy的Array对象centers中def InitCenters(dataSet,
复制链接

扫一扫