常用聚类算法以及算法评价

聚类模型是一种非监督的学习方法,聚类的输入是一组未标记的数据,聚类模型根据自身的距离或相似性将其化为若干组,划分的原则是组内距离最小化而组间距离最大化。常见聚类方法见下表:

类别主要算法
划分方法k-Means,k-Medoids(k中心点),CLANRANS(基于选择的算法)
层次分析方法BIRCH(平均迭代规约和聚类),CURE(代表点聚类),CHAMELEON(动态模型)
基于密度的方法DBSCAN(高密度连接区域),DENCLUE(密度分布函数),OPTICS(对象排序识别)
基于网格的方法STING(统计信息网络),SLIOUE(聚类高维空间),WAVE-CLUSTER(小波变化)
基于模型的方法统计学,神经网络

聚类分析算法评价
聚类分析目标是实现组内相似性高,组间相似性低。组内相似性越大,组间相似性越大,聚类效果越好。

  1. purity评价法
    purity评价法相对简单,只需计算正确聚类数目占总数的比例。

    purity(X,Y)= 1n max|xkyk|

  2. RI评价法
    RI= R+WR+M+D+W

    R:应该在一起的两个对象被正确分类了
    W:不应该被聚在一类的两个对象被正确分开了
    M:不该放在一类的对象被错误的放在了一类
    D:不应该分开的对象被错误的分开了

  3. F值评价法
    RI方法的衍生方法:
    Fa = (1+α2)prα2p+r ,
    其中,p= RR+M ,r= RR+D .
    实际上,RI方法就是把准确率p和召回率看得同等重要。事实上,有时我们需要某一特性更多一点,这时候就适合使用F值方法。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值