机器学习第9章（聚类）

最新推荐文章于 2022-08-30 23:01:30 发布

罗辑罗辑

最新推荐文章于 2022-08-30 23:01:30 发布

阅读量661

点赞数

文章标签：人工智能机器学习聚类算法

本文链接：https://blog.csdn.net/jinhualun911/article/details/108823885

版权

聚类（clustering）

9.1 聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念或类别。聚类过程仅能自动形成簇结构，簇所对应的概念需要人进一步去解释。

假定样本集 $D=\left \{ x_{1},x_{2},...,x_{m} \right \}$ 包含m个无标记样本，每个样本 $x_{i}=(x_{i1};x_{i2};...;x_{i}_{n})$ 是一个n维特征向量，则聚类算法将样本集D划分为k个不相交的簇 $\left \{ C_{L}|l=1,2,...,k \right \}$ ，其中 $C_{L'}\cap _{l'\neq l}C_{l}=\O$ ，且 $D=\cup _{l=1}^{k}C_{l}$ ，用 $\lambda _{j}\in \left \{ 1,2,...,k \right \}$ 表示样本 $x_{j}$ 的簇标记，即 $x_{j}\in C_{\lambda j}$ 。聚类的结果可用包含m个元素的簇标记向量 $\lambda =(\lambda_{1},\lambda_{2},...,\lambda_{m})$ 表示。

9.2 性能度量

聚类性能度量又称聚类有效性指标（validity index）。

聚类的目标：簇内相似度（intra-cluster）高且簇间相似度（inter-cluster similarity）低。

聚类性能度量大概有两大类：一类是将聚类结果与某个参考模型进行比较，称为外部指标（external index）；另一类是直接考察聚类结果而不利用任何参考模型，称为内部指标（internal-index）。

对数据集 $D=\left \{ x_{1},x_{2},...,x_{m} \right \}$ ，假定通过聚类给出的簇划分为 $C=\left \{ C_{1},C_{2},...,C_{k} \right \}$ ，参考模型给出的簇划分为 $C^{*}=\left \{ C_{1}^{*},C_{2}^{*},...,C_{s}^{*} \right \}$ 。

9.3 距离计算

9.4 原型聚类

基于原型的聚类（prototype-based clustering），此类算法假设聚类结构能够通过一组原型刻画，在现实聚类任务中极为常用。

k-均值算法

学习向量量化

高斯混合聚类

9.5 密度聚类

基于密度的聚类（density-based clustering），此类算法假设聚类结构能够通过样本分布的紧密程度确定。

9.6 层次聚类

层次聚类（hierarchical clustering）试图在不同层次对数据集进行划分，从而形成树形的积累结构。

AGNES算法

罗辑罗辑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习第9章（聚类）

聚类（clustering）9.1 聚类任务聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念或类别。聚类过程仅能自动形成簇结构，簇所对应的概念需要人进一步去解释。假定样本集包含m个无标记样本，每个样本是一个n维特征向量，则聚类算法将样本集D划分为k个不相交的簇，其中，且，用表示样本的簇标记，即。聚类的结果可用包含m个元素的簇标记...
复制链接

扫一扫