手写kmeans

算法:

  1. 首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。
  2. 从数据集中随机选择k个数据点作为质心。
  3. 对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到那个质心所属的集合。
  4. 把所有数据归好集合后,一共有k个集合。然后重新计算每个集合的质心。
  5. 如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。
  6. 如果新质心和原质心距离变化很大,需要迭代3~5步骤。

代码:

import numpy as np
import matplotlib.pyplot as plt

# map 100*100
high = 100
width = 100
# create random data
data = np.random.rand(100, 2)
data = data * [high, width]
data = np.hstack((data, np.zeros([100, 1])))
# count of classes
classes = 5


def distance(point1, center):
    return np.sqrt((point1[0] - center[0]) ** 2 + (point1[1] - center[1]) ** 2)


def color(i):
    global classes
    return i * 255. / classes


if __name__ == '__main__':
    plt.ion()
    # select center randomly
    centers = np.random.randint(0, 100, [classes])
    centers_data = []
    for i in range(classes):
        data[i][2] = i
        centers_data.append(data[i])
    while True:
        colors = [color(x) for x in data[:, 2]]
        plt.scatter(data[:, 0], data[:, 1], c=colors)
        plt.pause(0.5)
        # caculate nearest center
        for i in range(100):
            distances = np.array([distance(data[i], center_data) for center_data in centers_data])
            i_class = np.argmin(distances)
            data[i][2] = i_class
        # caculate new center
        new_centers_data = np.zeros([classes, 2])
        new_centers_count = np.zeros([classes])
        for j in range(5):
            for i in range(100):
                if data[i][2] == j:
                    new_centers_count[j] += 1
                    new_centers_data[j] += data[i][0:2]
        new_centers_data /= np.array([new_centers_count]).T
        dist = np.max([distance(new_centers_data[i], centers_data[i]) for i in range(classes)])
        print('max distance ', dist)
        if dist < 1e-4:
            break
        centers_data = new_centers_data
    plt.ioff()
    plt.show()
    print('kmeans completed.')

 

由于kmeans算法是一种非常常用的聚类算法,因此在MATLAB中也提供了kmeans函数来进行聚类操作。但是,如果想要手写kmeans算法,可以按照以下步骤进行: 1. 初始化k个聚类中心,可以随机选择数据集中的k个点作为聚类中心。 2. 对于每个数据点,计算其与k个聚类中心的距离,并将其划分到距离最近的聚类中心所属的类别。 3. 对于每个聚类,重新计算其聚类中心,即取该聚类所有数据点的平均值作为新的聚类中心。 4. 重复步骤2和3,直到聚类中心不再变化或达到最大迭代次数。 以下是MATLAB代码示例: ```matlab function [labels, centers] = kmeans(X, k) % X为数据集,k为聚类个数 [n, m] = size(X); % 初始化聚类中心 centers = X(randperm(n, k), :); labels = zeros(n, 1); max_iter = 100; for iter = 1:max_iter % 将每个数据点划分到距离最近的聚类中心所属的类别 for i = 1:n dist = sum((X(i, :) - centers).^2, 2); [~, labels(i)] = min(dist); end % 重新计算聚类中心 for j = 1:k idx = find(labels == j); centers(j, :) = mean(X(idx, :), 1); end % 如果聚类中心不再变化,停止迭代 if iter > 1 && all(centers == old_centers, 'all') break; end old_centers = centers; end end ``` 该函数的输入为数据集X和聚类个数k,输出为每个数据点所属的类别和最终的聚类中心。在函数中,我们先随机选择k个数据点作为聚类中心,然后进行最大迭代次数次的迭代,每次迭代都先将每个数据点划分到距离最近的聚类中心所属的类别,再重新计算每个聚类的中心。如果聚类中心不再变化,就停止迭代。注意,由于MATLAB中的函数可能会影响效率,因此我们使用了循环来实现kmeans算法的过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值