聚类中各种算法比较和区别

聚类(无监督学习)
    1、K均值
        根据事先给定的聚类数,为每个聚类随机分配中心点,计算所有样本与中心的
    距离,将每个样本分配到与其距离最近的中心点所在的聚类中。再计算每个聚类的
    几何中心,用该中心作为新的聚类中心,再次重新聚类。直到计算出的几何中心
    与上一次的聚类使用的聚类中心重合或者足够接近为止。
        特点: 需要指定聚类数,聚类结果受到样本比例的影响,聚类中心的初始位置也会影响聚类结果。
    2.均值漂移
       把训练样本看成是服从某种概率密度函数的随机分布,在不断迭代过程中
    试图寻找最佳的模式匹配,该密度函数的峰值点就是聚类中心,为该密度函数
    所覆盖的样本及隶属于该聚类。
        特点: 不需要实现给定聚类数,算法本身具有发现聚类数量的能力。
    3.凝聚层次算法
       凝聚层次聚类,可以是自下而上(聚),也可以自上而下(分)
       1.在自下而上算法中,每个训练样本都是单独的集群,根据样本之间的相似度,将其不断的合并
        直到集群达到事先指定的聚类数为止。
       2.在自上而下算法中,所有的训练样本被看做一个大的聚类,根据样本之间的差异度,将其不断拆分,直到
         集群数达到事先指定的聚类数为止。
       特点:不同于其他基于中心的聚类算法,用它对一些空间上具有明显连续性的,但彼此之间的距离未必最近
       的样本,可以优先聚集,这样构成的聚类划分就能表现出比较强的连续性。

    4.DBSCAN算法
       朋友的朋友也是我的朋友
       从任何一个训练样本出发,从一个事先给定的半径做圆,凡是不在此圆之外的样本都与圆心样本同类,
       再以这些同类样本为中心做圆,重复以上过程,直到没有新的同类样本加入该聚类为止。

    5.轮廓系数
        表示聚类划分的内密外疏程度
        轮廓系数主要以两个指标完成
        a:一个样本与其所在的聚类其他样本的平均距离(内密)
        b:一个样本与其距离最近的另一个聚类中样本的平均距离(外疏)
                   b - a
        轮廓系数 =  ------
                  max(a,b)
        **针对一个数据集,其轮廓系数就是其中所有样本的轮廓系数的平均值,轮廓系数介于(-1,1)之间。
        1表示完美聚类,-1表示错误聚类,0表示聚类重叠。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值