K-means聚类算法

最新推荐文章于 2024-09-01 13:38:47 发布

BENULL

最新推荐文章于 2024-09-01 13:38:47 发布

阅读量505

点赞数

分类专栏： AI 文章标签：机器学习聚类 python

本文链接：https://blog.csdn.net/qq_32815807/article/details/110139557

版权

K-means聚类算法

聚类

在无监督学习中, 训练样本的标记信息是未知的, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律, 为进一步的数据分析提供基础，此类学习任务中研究最多、应用最广的是“聚类”(clustering)

聚类试图将数据集中的样本划分为若干个通常是不相交的子集, 每个子集称为一个“簇”(cluster)

通过这样的划分, 每个簇可能对应于一些潜在的概念(类别), 需说明的是, 这些概念对聚类算法而言事先是未知的, 聚类过程仅能自动形成簇结构, 簇所对应的概念语义需由使用者来把握

关于簇的完整定义尚未达成共识，传统的定义如下

同一簇中的实例必须尽可能相似
不同簇中的实例必须尽可能不同
相似度和相异度的度量必须清楚并具有实际意义

性能度量

聚类性能度量大致有两类

将聚类结果与某个参考模型进行比较, 称为“外部指标” (external index)
直接考察聚类结果而不利用任何参考模型, 称为“内部指标” (internalindex)

外部指标

对数据集 $D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{m}\right\},$ 假定通过聚类给出的族划分为 $\mathcal{C}=\left\{C_{1},C_{2}, \ldots, C_{k}\right\},$ 参考模型给出的族划分为 $\mathcal{C}^{*}=\left\{C_{1}^{*}, C_{2}^{*}, \ldots, C_{s}^{*}\right\} .$ 相应地, 令 $\boldsymbol{\lambda}$ 与 $\lambda^{*}$ 分别表示与 $\mathcal{C}$ 和 $\mathcal{C}^{*}$ 对应的族标记向量. 我们将样本两两配对考虑, 定义
$\begin{aligned} a &\left.=|S S|, \quad S S=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i}=\lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\} \\ b &\left.=|S D|, \quad S D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i}=\lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\} \\ c &\left.=|D S|, \quad D S=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\} \\ d &\left.=|D D|, \quad D D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\} \end{aligned}$