python机器学习手写算法系列——kmeans聚类

从机器学习到kmeans

在这里插入图片描述
聚类是一种非监督学习,他和监督学习里的分类有相似之处,两者都是把样本分布到不同的组里去。区别在于,分类分析是有标签的,聚类是没有标签的。或者说,分类是有y的,聚类是没有y的,只有X。所以,聚类只能根据X的特征本身,把样本分布到不同的组。

比如,我们有个成语,叫物以类聚,人以群分。我们可以把人分成男人和女人,这里分组的根据是人本身的属性-性别。而性别是知道的,而不需要用一个公式求得。

问题

这里,我们用的数据集是sklearn自带的数字数据集。
在这里插入图片描述
这些图片都是8 * 8 = 64 个点组成,每个点的数值从0到15。我们用PCA降维并归一化(Normalization)以后,得到以下数据集:

在这里插入图片描述
其实,这部分的处理和sklearn的示例代码是一致的。我会替换掉sklearn的kmeans算法,用自己的kmeans算法做聚类。

kmeans算法原理

kmeans中文叫k均值,不过我们平时交流都叫他kmeans。我个人反对把写着算法翻译成中文,因为这样只是增加了我们的负担。这里的k,是指要把数据集分成k组。means是指同一个组group(或者叫簇cluster)里,所有的样本求平均值,得到他们的centroid(中心)。

这个算法是通过以下两个步骤不断的交替,来实现聚类的:

  1. 用求平均值的方法,求每个组的centroid
  2. 根据centroids,计算样本到centroids的距离,判断这个样本属于哪个组。

手写算法

初始化centroids。首先,随机初始化k个centroids。

def init_centroids(k, n_features):
    return np.random.random(k * n_features).reshape((k, n_features))

接着用求平均值的方法,求每个组的centroid

def 
  • 14
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
Kmeans聚类算法是一种无监督学习算法,用于将数据集划分为不同的簇。它是一个迭代算法,通过计算每个数据点与簇心的距离,将数据点分配到最近的簇心。然后,根据分配的数据点更新簇心。重复这个过程,直到簇心不再变化或达到预设的迭代次数。 下面是一个使用Python实现Kmeans聚类算法的示例: ``` python import numpy as np import matplotlib.pyplot as plt # 生成随机数据 np.random.seed(0) X = np.random.randn(100, 2) # 初始化K个簇心 K = 3 centers = X[np.random.choice(len(X), K, replace=False)] # 迭代聚类 for i in range(10): # 计算每个数据点最近的簇心 distances = np.linalg.norm(X[:, np.newaxis, :] - centers, axis=2) labels = np.argmin(distances, axis=1) # 更新簇心 for k in range(K): centers[k] = np.mean(X[labels == k], axis=0) # 可视化聚类结果 colors = ['r', 'g', 'b'] for k in range(K): plt.scatter(X[labels == k, 0], X[labels == k, 1], c=colors[k]) plt.scatter(centers[:, 0], centers[:, 1], marker='*', s=200, c='#050505') plt.show() ``` 在这个例子,我们生成了一个随机数据集,然后初始化了3个簇心。然后,我们执行10次迭代,计算每个数据点最近的簇心,并根据分配的数据点更新簇心。最后,我们可视化聚类结果,其每个簇用不同的颜色表示,簇心用星号表示。 Kmeans聚类算法是一种简单有效的聚类算法,但它有一些缺点。例如,它需要预先指定簇的数量K,这可能不是很容易确定。此外,它对初始簇心的选择很敏感,可能会导致陷入局部最优解。因此,在实际应用,需要对它进行改进,例如Kmeans++算法和层次聚类算法等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

织网者Eric

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值