机器学习第9章(聚类)

                                              聚类(clustering)

9.1 聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念或类别。聚类过程仅能自动形成簇结构,簇所对应的概念需要人进一步去解释。

假定样本集D=\left \{ x_{1},x_{2},...,x_{m} \right \}包含m个无标记样本,每个样本x_{i}=(x_{i1};x_{i2};...;x_{i}_{n})是一个n维特征向量,则聚类算法将样本集D划分为k个不相交的簇\left \{ C_{L}|l=1,2,...,k \right \},其中C_{L'}\cap _{l'\neq l}C_{l}=\O,且D=\cup _{l=1}^{k}C_{l},用\lambda _{j}\in \left \{ 1,2,...,k \right \}表示样本x_{j}的簇标记,即x_{j}\in C_{\lambda j}。聚类的结果可用包含m个元素的簇标记向量\lambda =(\lambda_{1},\lambda_{2},...,\lambda_{m})表示。

9.2 性能度量

聚类性能度量又称聚类有效性指标(validity index)。

聚类的目标:簇内相似度(intra-cluster)高且簇间相似度(inter-cluster similarity)低

聚类性能度量大概有两大类:一类是将聚类结果与某个参考模型进行比较,称为外部指标(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为内部指标(internal-index)。

对数据集D=\left \{ x_{1},x_{2},...,x_{m} \right \},假定通过聚类给出的簇划分为C=\left \{ C_{1},C_{2},...,C_{k} \right \},参考模型给出的簇划分为C^{*}=\left \{ C_{1}^{*},C_{2}^{*},...,C_{s}^{*} \right \}

9.3 距离计算

9.4 原型聚类

基于原型的聚类(prototype-based clustering),此类算法假设聚类结构能够通过一组原型刻画,在现实聚类任务中极为常用。

k-均值算法

学习向量量化

高斯混合聚类

9.5 密度聚类

基于密度的聚类(density-based clustering),此类算法假设聚类结构能够通过样本分布的紧密程度确定。

9.6 层次聚类

层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的积累结构。

AGNES算法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值