K-Means聚类算法（三）

最新推荐文章于 2024-06-20 10:07:37 发布

!一直往南方开.

最新推荐文章于 2024-06-20 10:07:37 发布

阅读量1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_44205272/article/details/105376816

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

K-Means算法问题一

对k个初始质心的选择比较敏感，容易陷入局部最小值。例如，算法运行的时候，有可能会得到不同的结果，如下面这两种情况。K-means也是收敛了，只是收敛到了局部最小值

在这里插入图片描述
代码改善部分

# 设置k值
k = 4  

min_loss = 10000
min_loss_centroids = np.array([])
min_loss_clusterData = np.array([])

for i in range(50):
    # centroids 簇的中心点 
    # cluster Data样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差
    centroids, clusterData = kmeans(data, k)  
    loss = sum(clusterData[:,1])/data.shape[0]
    if loss < min_loss:
        min_loss = loss
        min_loss_centroids = centroids
        min_loss_clusterData = clusterData
        
#     print('loss',min_loss)
print('cluster complete!')      
centroids = min_loss_centroids
clusterData = min_loss_clusterData

# 显示结果
showCluster(data, k, centroids, clusterData)

K-Means算法问题二

k值的选择是用户指定的，不同的k得到的结果会有挺大的不同，如下图所示，左边是k=3的结果，蓝色的簇太稀疏了，蓝色的簇应该可以再划分成两个簇。右边是k=5的结果，红色和蓝色的簇应该合并为一个簇

在这里插入图片描述

使用肘部法则来选取k值

在这里插入图片描述

代码优化

list_lost = []
for k in range(2,10):
    min_loss = 10000
    min_loss_centroids = np.array([])
    min_loss_clusterData = np.array([])
    for i in range(50):
        # centroids 簇的中心点 
        # cluster Data样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差
        centroids, clusterData = kmeans(data, k)  
        loss = sum(clusterData[:,1])/data.shape[0]
        if loss < min_loss:
            min_loss = loss
            min_loss_centroids = centroids
            min_loss_clusterData = clusterData
    list_lost.append(min_loss)
    
#     print('loss',min_loss)
# print('cluster complete!')      
# centroids = min_loss_centroids
# clusterData = min_loss_clusterData

# 显示结果
# showCluster(data, k, centroids, clusterData)

plt.plot(range(2,10),list_lost)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()

在这里插入图片描述

!一直往南方开.

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
K-Means聚类算法（三）

K-Means算法问题一对k个初始质心的选择比较敏感，容易陷入局部最小值。例如，算法运行的时候，有可能会得到不同的结果，如下面这两种情况。K-means也是收敛了，只是收敛到了局部最小值代码改善部分# 设置k值k = 4 min_loss = 10000min_loss_centroids = np.array([])min_loss_clusterData = np.a...
复制链接

扫一扫