K-means聚类算法

K-means 是基础的聚类算法之一。它的思想是首先确定需要把样本聚成K个类别。k是需要不断去尝试和选择的。每个簇的中心用簇均值来表示。

伪代码

  • 输入:K:簇的数量
       D:包含n个对象的数据集
  • 输出:k个簇的集合
  • 步骤:
    1.从D中选择任选k个中心点作为最初的中心点
    repeat
    2.将D中的数据划分到离中心点最近的簇中
    3.重新计算每个簇的均值
    until每个对象所属的簇不发生变化。
k-means容易受到初始点的影响。对异常值很敏感。对于离散数据可使用k-众数的方式来选择中心点。可将k-means和k-众数集成为可以处理有连续和离散数据的算法。
下面是copy自《机器学习实战》的Python代码,在Python3.4环境下。其中的数据集是书中自带的数据集
import numpy as np

def loadDataSet(fileName):
    dataMat=[]
    fr=open(fileName)
    for line in fr.readlines():
        curLine=line.strip().split('\t')
        fltLine=list(map(float,curLine))
        dataMat.append(fltLine)
    return dataMat

##计算两个样本间的距离
def distEclud(vecA,vecB):
    return np.sqrt(np.sum(np.power(vecA-vecB,2)))

##产生随机中心点,dataSet是mat形式
def randCent(dataSet,k):
    n=np.shape(dataSet)[1]
    centroids=np.mat(np.zeros((k,n)))
    for j in range(n):
        minJ=min(dataSet[:,1])  
        rangeJ=float(max(dataSet[:,1])-minJ)
        centroids[:,j]=minJ+rangeJ*np.random.rand(k,1)
    return  centroids


##kMeans
def kMeans(dataSet,k,distMeans=distEclud,createCent=randCent):
    m=np.shape(dataSet)[0]
    clusterAssment=np.mat(np.zeros((m,2)))
    centroids=createCent(dataSet,k)
    clusterChanged=True
    while clusterChanged:
        clusterChanged=False
        for i in range(m):
            minDist=np.inf
            minIndex=-1
            for j in range(k):
                distJI=distMeans(dataSet[i,:],centroids[j,:])
                if minDist>distJI:
                    minDist=distJI
                    minIndex=j
            if clusterAssment[i,0]!=minIndex:
                clusterAssment[i,0]=minIndex
                clusterAssment[i,1]=minDist
                clusterChanged=True
        for cent in range(k):
            ptsInclust=dataSet[np.nonzero(clusterAssment[:,0].A==cent)[0]] #nonzero的用法
            centroids[cent,:]=np.mean(ptsInclust,axis=0)
    return centroids,clusterAssment

dataSet=np.mat(loadDataSet('testSet.txt'))
cent,clus=kMeans(dataSet,4)
            

    

稍后提供c++版

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值