机器学习--k均值聚类

机器学习–k均值聚类

如有错误或者疑问,欢迎交流,转载请注明出处

定义

k-means是比较简单而使用的无监督聚类算法,根据特征将样本自动分类成几个类别

  • 算法描述
    1.随机选取K个样本作为类别中心
    2.repeat直到收敛或规定次数{
       对每个样例 i 寻找最近的聚类中心,将该中心作为他的类别
       c(i):=j that minnmizes   ||x(i)μj||2

       对于每一个类别,重新计算其聚类中心
        μj:=1|cj|xcjx
    }

代码块

talk is cheap, show me the code~

1.随机选取中心

def kmeans_init_centroids(X,k):
    '''
    INPUT: X: (m,n) ndarray m是样本数目,n是特征维度
           k: int 类别数目
    '''
    centroids = np.zeros((K, X.shape[1]))#初始化k个中心
    index = np.random.choice(X.shape[0],K,replace=False)#从m个样本中随机选取k个
    centroids = X[index]
    return centroids

2.每个样本划分到自己所属的类别

def find_closest_centroids(X, centroids):
    K = centroids.shape[0]
    m = X.shape[0]
    idx = np.zeros(m)#m个样本的类别index
    for i in range(m):
        distance = np.zeros(k)
        for j in range(k):
            distance[j] = np.sum((X[i] - centroids[j]) ** 2))
        idx[i] = np.argmin(distance)
    return idx

3.从新计算聚类中心

def compute_centroids(X, idx, k):
    #idx (m,) ndarray
    (m,n)=X.shape
    centroids = np.zeros((k,n))

    for i in range(K):
        index = (idx==i) #return array([True,...,False])
        subX = X[index] #选择该类别的样本
        centroids[i] = np.mean(subX,axis=0)
    return centroids

4.k-means
阉割版。。可以看看Andrew的机器学习课后作业

def kmeans(X, initial_centroids, max_iters):
    (m, n) = X.shape
    k = initial_centroids.shape[0]
    centroids = initial_centroids
    idx = np.zeros(m)
    for i in range(max_iters):
        idx = find_closest_centroids(X, centroids)
        centroids = compute_centroids(X, idx, K)
    return centroids, idx #返回聚类中心,和每个样例所属的类别index

Andrew课后图像展示

  • 二维平面聚类中心移动图
    聚类中心由初始化位置移动到合适位置,形成3个类别
    这里写图片描述
    这里写图片描述

  • 图像压缩实例
    将W*H*C的图像转换为(WH)*C的二维矩阵,C是3个通道,RGB,以颜色作为特征进行聚类,选择了16个聚类中心。
    这样一来,所有像素点可以划分到这16个类别,用聚类中心代表该类别中的其他像素点,从而减少图像内存大小,同时保留了关键信息,人眼还是可以看出大致轮廓,如下图
    这里写图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值