kmeans算法(python实现)

import numpy as np
import matplotlib.pyplot as plt
#Initialize center函数通过使用numpy库的 zeros函数和random.uniform函数,随机选取 了k个数据做聚类中心,
# 并将结果存放在 了k个数据做聚类中心,并将结果存放在 Numpy的Array对象centers中
def InitCenters(dataSet,k):
    numSample,dim=dataSet.shape#获得数组的维度
    centers=np.zeros((k,dim))
    for i in range(k):
        index=int(np.random.uniform(0,numSample))#随机得到k个质心
        centers[i,:]=dataSet[index,:]
    print(centers)
    return centers
#Dist2Centers这个函数用来计算一个数据点到所有 聚类中心的距离,将其存放在dis2cents中返回
def Dist2Centers(sample,centers):
    k =centers.shape[0]
    dis2cents=np.zeros(k)
    for i in range(k):
        dis2cents[i]=np.sqrt(np.sum(np.power(sample-centers[i,:],2)))
        return dis2cents
def kmeans(dataSet,k,iterNum):
    numSamples=dataSet.shape[0]
    iterCount=0
    #clusterAssignment保存着样本属于哪个数据集
    clusterAssignment=np.zeros(numSamples)
    clusterChanged=True
    #初始化中心点
    centers=InitCenters(dataSet,k)
    while clusterChanged and iterCount<iterNum:
        #遍历每个样本
        for i in range(numSamples):
            dis2cent=Dist2Centers(dataSet[i,:],centers)
            minIndex=np.argmin(dis2cent)
            #更新所属的类
            if clusterAssignment[i]!=minIndex:
                clusterChanged=True
                clusterAssignment[i]=minIndex
        #更新中心点
        for j in range(k):
            pointsInCluster =dataSet[np.nonzero(clusterAssignment[:]==j)[0]]
            centers[j:] =np.mean(pointsInCluster,axis=0)
    print("聚类完成")
    return centers,clusterAssignment
def showCluster(dataSet,k,centers,clusterAssignment):
    numSamples,dim=dataSet
    mark=['or','ob','og','om']
    #画出所有样本
    for i in range(numSamples):
        markIndex =int(clusterAssignment[i])
        plt.plot(dataSet[i,0],dataSet[i,1],mark[markIndex])
    mark =['Dr','Db','Dg','Dm']
    # 画中心点
    for i in range(k):
        plt.plot(centers[i,0],centers[i,1],mark[i],markersize=17)
    plt.show()
def main():
    #第一步:加载数据
    print("第一步:加载数据")
    dataSet=[]
    dataSetFile=open('testSet.txt','r')
    for line in dataSetFile:
        lineArr=line.strip().split('\t')
        dataSet.append([float(lineArr[1]),float(lineArr[2])])
    #第二步:聚类
    print("第二步:聚类")
    dataSet=np.mat(dataSet)
    k=4      # k为分成几类的参数
    centers_result,clusterAssignment_result=kmeans(dataSet,k,100)
    #第三步:展示结果
    print("第三步:展示结果")
    showCluster(dataSet,k,centers_result,clusterAssignment_result)
main()




问题定义 :聚类问题是数据挖掘的基本问题,它的本质是将n 个数据对象划分为k个聚类,以便使得所获得的聚 类满足以下条件:同一聚类中的数据对象相似度较高;不同聚类中的对象相似度较小。 K-means算法就是解决这类问题的经典聚类算法,它的基本思想是以空间中k个点为中心,进行聚类 ,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果 

K-means算法步骤:

1.从n个数据对象任意选择k 个对象作为初始聚类中心; 并设定最大迭代次数 

2.计算每个对象与k个中心点的距离并根据最小距离对相应对象进行划分,即把对象划分到与他们最近的中心所代表的类别中去;

3.对于每一个中心点,遍历他们所包含的对象,计算这些对象所有维度的和的均值,获得新的中心点

4.如果聚类中心与上次迭代之前相比,有所改变,或者算法迭代次数小于给定的最大迭代次数,则继续执行第2 、3两步,否则,程序结束返回聚类结果。

Python3.6实现如下:




  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值