聚类算法（api,模型评估等）

最新推荐文章于 2024-10-15 14:48:32 发布

你再说一遍？364

最新推荐文章于 2024-10-15 14:48:32 发布

阅读量892

点赞数 12

文章标签：算法聚类机器学习

本文链接：https://blog.csdn.net/2302_80719643/article/details/142109326

版权

聚类算法简介

聚类算法是一种无监督学习算法，主要用于将相似的样本自动归到一个类别中。它通过分析样本之间的相似性，将样本划分到不同的类别中，从而发现数据中的内在结构和模式。
应用：市场分析、用户画像、广告推荐、图像分割等。

聚类算法与分类算法的区别

学习方式不同：
- 聚类算法是一种无监督学习算法，它不需要事先知道数据的类别标签。
- 分类算法是一种监督学习算法，它需要事先知道数据的类别标签，并通过训练学习如何将新数据正确分类
对源数据集要求不同：
- 聚类算法对源数据集没有特别的要求，可以是无标签的数据集。
- 分类算法要求源数据集包含标签信息，以便训练模型。
应用场景不同：
- 聚类算法更多地应用于数据探索性分析、数据降维、数据压缩等过程性分析和处理。
- 分类算法更多地应用于预测性分析和使用。

聚类算法api

sklearn.cluster.KMeans通过迭代的方式将数据点划分为K个簇，使得每个簇内的点尽可能相似，而不同簇的点尽可能不同。KMeans算法的目标是找到数据集的K个簇，并使得每个数据点到其所属簇的质心的距离平方和最小。

流程

KMeans算法的流程大致如下：

初始化：随机选择K个数据点作为初始的簇质心。
分配：对于数据集中的每个点，计算其与各个簇质心的距离，并将其分配到最近的簇质心所在的簇中。
更新：重新计算每个簇的质心，通常是通过计算簇内所有点的均值来得到新的质心。
迭代：重复步骤2和步骤3，直到满足某种停止条件（如质心不再发生变化或达到预设的迭代次数）。

优点

简单易懂：算法原理简单，容易理解和实现。
高效处理：对于大数据集，KMeans能够快速完成聚类。
可伸缩性：适用于不同规模的数据集。
明确划分：聚类结果清晰，每个簇内部数据相似度高。
可并行化：支持并行计算，提高处理速度。

缺点

初始敏感：聚类结果受初始聚类中心选择影响大。
K值难定：需要预先指定聚类数K，选择不当会影响聚类效果。
形状限制：假设簇是球形或椭球形，对非凸形状数据聚类效果不佳。
噪声敏感：对噪声和异常值敏感，可能影响聚类准确性。
局部最优：可能陷入局部最优解，而非全局最优。

代码示例：

from matplotlib import pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.metrics import calinski_harabasz_score

#创建数据集
# X为样本特征,Y为样本簇类别,共1000个样本,每个样本4个特征,共4个膜,
#簇中心在[-1,-1],[0,0],[1,1],[2,2],蔟方差分别为10.4,0.2,0.2,0.2]
x,y = make_blobs(n_samples=1000,n_features=2, centers=[[-1,-1],[0,0],[1,1],[2,211]],
                 cluster_std=[0.4,0.2,0.2,0.2], random_state=9)

#数据集可视化
plt.scatter(x[:, 0], x[:, 1], marker='0')
plt.show()
# 2.使用k-means进行聚类,并使用CH方法评估
y_pred =KMeans(n_clusters=2,random_state=9).fit_predict(x)
#分别尝试n_cluses=2\3\4,然后查看聚类效果 
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

#用Calinski-Harabasz Index评估的聚类分数
print(calinski_harabasz_score(x, y_pred))

# 3.使用k-means进行聚类,并使用CH方法评估
y_pred =KMeans(n_clusters=3,random_state=9).fit_predict(x)
#分别尝试n_cluses=2\3\4,然后查看聚类效果
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

#用Calinski-Harabasz Index评估的聚类分数
print(calinski_harabasz_score(x, y_pred))

参数介绍

sklearn.cluster.KMeans的主要参数包括：

n_clusters：整型，默认值为8。表示要形成的簇的个数，即质心的数量。
init：字符串或可调用对象，默认为'k-means++'。用于选择初始质心，以加速算法的收敛速度。
n_init：整型，默认为10。表示算法运行的次数，每次运行都会使用不同的初始质心进行聚类，并选取最好的结果作为最终输出。这有助于避免算法陷入局部最优解。
max_iter：整型，默认为300。表示算法的最大迭代次数。如果算法在达到最大迭代次数之前还没有收敛，则会停止迭代。
tol：浮点型，默认为1e-4。表示算法收敛的阈值。如果两次迭代之间的质心变化小于这个阈值，则认为算法已经收敛，可以提前停止迭代。
random_state：用于控制随机数的生成，以便算法的结果可以复现。

此外，sklearn.cluster.KMeans还提供了fit、predict和fit_predict等方法，用于训练模型、预测新数据点的簇标签以及同时训练模型并预测簇标签。