Kmeans参数n_clusters_labels_centers_

最新推荐文章于 2025-06-13 15:20:14 发布

原创

最新推荐文章于 2025-06-13 15:20:14 发布 · 2.5w 阅读

89 ·

CC 4.0 BY-SA版权

KMeans聚类中，n_clusters参数用于指定聚类数量，通常需要通过数据分布预估。文章通过实例演示如何创建数据集，使用KMeans并观察labels_获取聚类结果，同时介绍了cluster_centers_属性用于查看质心坐标。对于大规模数据，可以部分数据fit确定质心，其余数据使用predict进行聚类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KMeans重要参数：n_clusters

参数n_clusters 是 KMeans 中的 K，表示我们告诉模型要分几类。这是 Kmeans 当中唯一一个必填的参数，默认为 8 类，但通常我们的聚类结果会是一个小于 8 的结果。通常，在开始聚类之前，并不知道n_clusters 究竟是多少，因此我们要对它进行探索。
当拿到一个数据集，如果可能的话，希望能够通过绘图先观察一下这个数据集的数据分布，以此为聚类时输入的 n_clusters 做一个参考。
尝试在代码框执行以下代码:

首先，我们来自己创建一个数据集。这样的数据集是我们自己创建，所以是有标签的。

（1）导入需要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
plt.style.use('ggplot')

（2）自建数据集

#生成500*2的数据集，每一组数据可以有4个中心点，即数据集有4个标签
X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) 
plt.scatter(X[:, 0], X[:, 1],  marker='o' ,s=8 )
plt.