python机器学习手写算法系列——kmeans聚类

最新推荐文章于 2023-11-12 19:02:31 发布

织网者Eric

最新推荐文章于 2023-11-12 19:02:31 发布

阅读量9.2k

点赞数 14

分类专栏：机器学习 python机器学习手写算法系列文章标签：机器学习 kmeans 聚类 python 算法

本文链接：https://blog.csdn.net/juwikuang/article/details/90514488

版权

从机器学习到kmeans

在这里插入图片描述
聚类是一种非监督学习，他和监督学习里的分类有相似之处，两者都是把样本分布到不同的组里去。区别在于，分类分析是有标签的，聚类是没有标签的。或者说，分类是有y的，聚类是没有y的，只有X。所以，聚类只能根据X的特征本身，把样本分布到不同的组。

比如，我们有个成语，叫物以类聚，人以群分。我们可以把人分成男人和女人，这里分组的根据是人本身的属性-性别。而性别是知道的，而不需要用一个公式求得。

这里，我们用的数据集是sklearn自带的数字数据集。
在这里插入图片描述
这些图片都是8 * 8 = 64 个点组成，每个点的数值从0到15。我们用PCA降维并归一化（Normalization）以后，得到以下数据集：

在这里插入图片描述
其实，这部分的处理和sklearn的示例代码是一致的。我会替换掉sklearn的kmeans算法，用自己的kmeans算法做聚类。

kmeans中文叫k均值，不过我们平时交流都叫他kmeans。我个人反对把写着算法翻译成中文，因为这样只是增加了我们的负担。这里的k，是指要把数据集分成k组。means是指同一个组group（或者叫簇cluster）里，所有的样本求平均值，得到他们的centroid（中心）。

这个算法是通过以下两个步骤不断的交替，来实现聚类的：

初始化centroids。首先，随机初始化k个centroids。

def init_centroids(k, n_features):
    return np.random.random(k * n_features).reshape((k, n_features))

接着用求平均值的方法，求每个组的centroid

def

关注