简述聚类分析

聚类分析指标

聚类分析主要利用簇来进行评价。要求:簇相似性,簇相似性

两类评价指标:(1)外部指标:与参考模型对比 (2)内部指标:直接考察聚类结果

外部指标,与参考模型对比:

(1)Jaccard 系数(Jaccard Coefficient ,JC系数)

(2)FM指数(Fowlkes and Mallows Index,FMI)

(3)Rand系数(Rand Index ,RI)

(4)ARI指数(Adjusted Rand Index,ARI)

使用RI时有个问题,就是对于随机聚类,RI不保证接近0(可能还很大)。而ARI指数就可以利用随机聚类情况下的RIE[RI]来解决这个问题。

外部指标性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好

内部指标,直接考察聚类效果

(1)DB指数(Davies-Bouldin ,DBI):给定两个簇,每个簇样本之间平均值之和比上两个簇的中心点之间的距离作为度量。

(2)Dunn指数(Dunn Index,DI):任意两个簇之间最近的距离的最小值。

DBI越小越好,DI越大越好。

F值:也就是常见的F1分数。当\alpha=1时,就是标准的F-1分数。此外准确率(Accuracy)和召回率(Recall)也是评价手段。

熵(Entropy):查看类别所属于的概率,利用的就是 熵公式。值越小不确定性越低,聚类效果越好。

纯度(Purity): 纯度越高越好,聚类效果越好。纯度和熵都是从概率的角度出发的。参考链接2.

NMI (归一化互信息) MI (互信息)也是评价指标。

轮廓系数也是一种评价方法,结合内聚度和分离度两种因素来评价效果。

共性分类相关系数:是一种用于层次聚类效果的评价方法。

参考:链接1中有个表总结的特别全面。

聚类分析的类别

(1)原型聚类:首先给出一组原型刻画(原型就是假设已经有了每个簇的样本中心点)

   K-means、二分 K-means、LVQ(学习向量化)【假设数据样本带有类别标记】这三种都是原型向量刻画。

高斯混合聚类采用概率模型刻画。

(2)密度聚类:通过样本分布的紧密程度确定。(查看样本点周围的点与该点对 紧密程度)

DBSCAN基于“邻域”刻画,OPTICS;DEBCLUE;AGNES。

(3)层次聚类:在不同层次对数据集进行刻画,从而形成树形的聚类结构

AGNES:自底向上;DIANA:自顶向下;BIRCH;CLARANS  CHAMELEON (书中没有)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Foneone

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值