Python手写K均值算法

最新推荐文章于 2024-06-25 09:45:55 发布

竹山全栈

最新推荐文章于 2024-06-25 09:45:55 发布

阅读量216

点赞数

文章标签： python 均值算法开发语言

本文链接：https://blog.csdn.net/qq_22593423/article/details/133103285

版权

Python手写K均值算法

1. 算法思维导图

2. 该算法的手写必要性及市场率调查

K均值算法是一种常用的聚类算法，用于将数据集划分为k个簇，使得同一簇内的数据点相似度较高，不同簇之间的相似度较低。该算法在数据挖掘、图像处理、自然语言处理等领域有着广泛的应用。

市场调查显示，K均值算法在企业中的应用越来越广泛，如在客户分析、市场细分、产品定位、风险评估等方面都有着重要作用。

手写该算法的必要性在于，通过手写算法可以更深入地理解算法原理和实现过程，从而更好地应用于实际问题中。

3. 该算法手写实现的详细介绍和详细步骤

3.1 算法实现步骤

随机选择k个中心点
计算每个点到k个中心点的距离
将每个点归到距离最近的中心点所在的簇
重新计算每个簇的中心点
重复步骤2~4直到簇不再变化

3.2 代码实现

3.2.1 导入需要的库

import numpy as np
import matplotlib.pyplot as plt

3.2.2 定义K均值算法函数

def k_means(X, k, max_iter=100):
    # 随机选择k个中心点
    centers = X[np.random.choice(len(X), k, replace=False)]
    
    for i in range(max_iter):
        # 计算每个点到k个中心点的距离
        distances = np.sqrt(((X - centers[:, np.newaxis])**2).sum(axis=2))
        
        # 将每个点归到距离最近的中心点所在的簇
        labels = distances.argmin(axis=0)
        
        # 重新计算每个簇的中心点
        new_centers = np.array([X[labels == j].mean(axis=0) for j in range(k)])
        
        # 判断簇是否变化
        if np.allclose(centers, new_centers):
            break
        
        centers = new_centers
    
    return labels, centers

3.2.3 测试算法

# 生成测试数据
np.random.seed(0)
X = np.vstack([np.random.randn(100, 2) + [2, 2],
               np.random.randn(100, 2) + [-2, -2],
               np.random.randn(100, 2) + [-2, 2]])

# 调用K均值算法函数
labels, centers = k_means(X, k=3)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.scatter(centers[:, 0], centers[:, 1], marker='*', s=200, c='r')
plt.show()

3.3 该算法手写实现总结及思维拓展

通过手写K均值算法，我们可以更深入地理解算法原理和实现过程，从而更好地应用于实际问题中。在实现过程中，需要注意以下几点：

随机选择初始中心点时，应该避免选择重复的点。
在计算每个点到k个中心点的距离时，可以使用numpy的广播机制，避免使用循环。
在判断簇是否变化时，可以使用numpy的allclose函数，判断两个数组是否近似相等。

思维拓展：K均值算法的改进。K均值算法存在着一些问题，如对初始中心点的敏感性、簇的数量需要事先指定等。因此，我们可以对K均值算法进行改进，如使用层次聚类算法来确定簇的数量，使用K均值++算法来选择初始中心点等。

总结

K均值算法是一种常用的聚类算法，它通过将数据点分为不同的簇，使得同一簇内的数据点相似度较高，不同簇之间的数据点相似度较低。该算法的实现步骤包括随机选择k个中心点、计算每个点到中心点的距离、将每个点归到距离最近的中心点所在的簇、重新计算每个簇的中心点，重复以上步骤直到簇不再变化。

K均值算法的应用广泛，特别是在数据挖掘、图像处理、自然语言处理等领域。手写该算法的目的是更深入地理解算法原理和实现过程，从而更好地应用于实际问题中。

在手写实现过程中，需要注意随机选择初始中心点时避免选择重复的点，使用numpy的广播机制计算每个点到中心点的距离，使用numpy的allclose函数判断簇是否变化。

对于K均值算法的改进，可以使用层次聚类算法确定簇的数量，使用K均值++算法选择初始中心点等。这些改进可以提高算法的性能和效果。

竹山全栈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python手写K均值算法

随机选择k个中心点计算每个点到k个中心点的距离将每个点归到距离最近的中心点所在的簇重新计算每个簇的中心点重复步骤2~4直到簇不再变化# 随机选择k个中心点# 计算每个点到k个中心点的距离# 将每个点归到距离最近的中心点所在的簇# 重新计算每个簇的中心点# 判断簇是否变化break通过手写K均值算法，我们可以更深入地理解算法原理和实现过程，从而更好地应用于实际问题中。随机选择初始中心点时，应该避免选择重复的点。
复制链接

扫一扫