聚类算法

最新推荐文章于 2023-04-04 10:28:03 发布

qq_16608563

最新推荐文章于 2023-04-04 10:28:03 发布

阅读量292

点赞数

分类专栏：聚类算法

本文链接：https://blog.csdn.net/qq_16608563/article/details/85162099

版权

聚类算法专栏收录该内容

4 篇文章 2 订阅

订阅专栏

聚类任务

在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记样本的学习揭示数据的内在性质及规律，为进一步的数据分析提供基础。
“无监督学习”任务中，研究最多、应用最广的是“聚类”。

聚类试图将数据集中的样本划分成若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（比如类别）。

注意：这些概念对于聚类算法而言事先是未知的，聚类过程仅能自动形成"簇"结构，簇所对应的概念语义需由使用者来把握和命名。

形式化说明：假设样本集 $D=\{x_1,x_2,…x_m\}$ 包含m个无标记样本，每个样本 $x_i=(x_{i1},x_{i2},……x_{in})$ 是一个n维特征向量，则聚类算法将样本集D划分为k个不相交的簇 ${C_l|l=1,2,…k\}$ 其中 $KaTeX parse error: Expected '}', got 'EOF' at end of input: C_l'∩{C_l=∅$ $D=\displaystyle\sum_{l=1}^kC_l$ ,相应的，用 $λ_j∈\{1,2…k\}$ 表示样本 $x_j$ 的簇标记，即 $x_j∈C_{λ_j}$
于是，聚类的结果可用包含m个元素的簇标记向量 $λ∈\{λ_1,λ_2…λ_m\}$ 表示。
基于不同的策略，人们设计出了多种类型的聚类算法。在讨论聚类算法之前，先讨论聚类算法涉及的两个基本问题：性能度量和距离计算。

性能度量

聚类性能度量也称作聚类的“有效性指标”。与监督学习的性能度量类似，对聚类结果，我们需要通过某种性能度量来评估其好坏。
另一方面，如果明确了将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好的得到符合要求的聚类结果。

聚类结果的“簇内相似度高，簇间相似度低”

聚类性能度量大致有两类：
1）将聚类结果与某个”参考模型“进行比较，称为“外部指标”
2）直接考察聚类结果而不利用任何参考模型，称为“内部指标”
对于数据集 $D=\{x_1,x_2……x_m\}$ 假设通过聚类给出的簇划分为 $C=\{C_1,C_2……C_k\}$ ,参考模型给出的簇划分为 $C^*=\{C_1^*,C_2^*……C_s^*\}$ ,相应的令 $λ与λ^*$ 分别表示与 $C和C^*$ 对应的簇标记向量（每个元素的取值是1到k和1 到 s）
我们将样本两两配对考虑，定义
$a=|SS|,SS=\{(x_i,x_j)|λ_i=λ_j,λ_i^*=λ_j^*,i<j\}$ (1)
$b=|SD|,SD=\{(x_i,x_j)|λ_i=λ_j,λ_i^*≠λ_j^*,i<j\}$ (2)
$c=|DS|,DS=\{(x_i,x_j)|λ_i≠λ_j,λ_i^*=λ_j^*,i<j\}$ (3)
$d=|DD|,DD=\{(x_i,x_j)|λ_i≠λ_j,λ_i^*≠λ_j^*,i<j\}$ (4)
其中集合SS中包含了在C中隶属于相同簇且在 $C^*$ 中也隶属于相同的簇的样本集。
集合SD包含了在C中属于相同的簇但在 $C^*$ 中隶属于不同簇的样本对，c d依次类推。
由于每一个样本对 $x_i,x_j)$ 仅能出现在一个集合中，因此有a+b+c+d=m(m-1)/2

由上面的四个式子推出常用的聚类性能度量外部指标：
Jaccard系数
$JC=\frac{a}{a+b+c}$
FM指数
$FMI=sqrt(\frac{a}{a+b}*\frac{a}{a+c})$
Rand指数
$RI=\frac{2(a+d)}{m(m-1)}$
显然，上述性能度量的结果均在 $[0, 1]$ ,值越大越好。

内部指标：
考虑聚类结果的簇划分 $C=\{C_1,C_2……C_k\}$ ,定义

$avg(C)=\frac{2}{|C||(C-1)|}\displaystyle\sum_{1≤i≤j≤|C|}dist(x_i,x_j)$

$diam(C)=maxdist(x_i,x_j),1≤i≤j≤|C|$

$d_{min}(C_i,C_j)=mindist(x_i,x_j),x_i∈C_i,x_j∈C_j$

$d_{cen}(C_i,C_j)=dist(u_i,u_j)$

其中， $d i s t ()$ 用于计算两个样本之间的距离， $u$ 代表簇C的中心点 $u=\frac{1}{|C|}\displaystyle\sum_{1≤i≤|C|}x_i$
显然， $a v g (C)$ 对应于簇C内样本间的平均距离， $d i a m (C)$ 对于簇C内样本间的最远距离， $d_{min}(C_i,C_j)$ 对应于簇 $C_i,C_j$ 最近样本间的距离， $d_{cen}(C_i,C_j)$ 对应于 $C_i,C_j$ 中心点间的距离。

DB指数：

$DBI=\frac{1}{k}\displaystyle\sum_{i=1}^{k}max_{i≠j}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(u_i,u_j)})$

Dunn指数：

$DI=min_{1≤i≤k}\{min_{i≠j}(\frac{d_{min}(C_i,C_j)}{max_{1≤l≤k}diam(C_l)})\}$

显然DBI越小越好，Dunn越大越好。

距离计算

给定样本 $x_i=(x_{i1},x_{i2}……x_{in})$ 与 $x_j=(x_{j1},x_{j2}……x_{jn})$ ,最常用的是“闵可夫斯基距离”
$dist_{mk}(x_i,x_j)=(\displaystyle\sum_{u=1}^{n}|x_{iu}-{x_{ju}|^p})^{\frac{1}{p}}$

p=2 时是欧氏距离，p=1时是曼哈顿距离

在讨论距离计算时，属性上是否定义了“序”关系十分重要，例如定义域为 ${1,2,3\}$ 的离散属性与连续属性的性质更接近一些，能直接在属性值上计算距离：1与2比较接近，与3比较远，这样的属性称为“有序属性”

而定义域为 ${飞机，火车，轮船\}$ 这样的离散属性则不能直接在属性值上计算距离，称为“无序属性”

显然闵可夫斯基距离可用于计算有序属性

对于无序属性可采用VDM，令 $m_{u,a}$ 表示在属性u上取值为a的样本数， $m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM的距离为

$VDM_p(a,b)=\displaystyle\sum_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$

于是可将闵可夫斯基距离和VDM距离结合即可处理混合属性。假设有 $n_c$ 个有序属性， $n-n_c$ 个无序属性，则

$MinkovDM_p(x_i,x_j)=(\displaystyle\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\displaystyle\sum_{u=n_c+1}^{n}VDM_p(x_{iu}-x_{ju}))^{\frac{1}{p}}$

当样本空间中的不同属性的重要性不同时，可使用“加权距离”，以加权闵可夫斯基距离为例

$dist_{wmk}(x_i,x_j)=(w_1|x_{i1}-x_{j1}|^p+……+w_n|x_{in}-x_{jn}|^p)$

其中， $w_i≥0(i=1,2……n)$ 表示不同属性的重要性，通常 $\displaystyle\sum_{i=1}^{n}w_i=1$

qq_16608563

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类算法

聚类任务在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记样本的学习揭示数据的内在性质及规律，为进一步的数据分析提供基础。“无监督学习”任务中，研究最多、应用最广的是“聚类”。聚类试图将数据集中的样本划分成若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（比如类别）。注意：这些概念对于聚类算法而言事先是未知的，聚类过程仅能自动...
复制链接

扫一扫