聚类

聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。

聚类算法涉及了2个基本问题——性能度量和距离计算(详见单独Blog

维度灾难

在开始聚类前,先了解一个概念——维度灾难

高维的欧式空间具有一些非直观的有时被称为“维度灾难”的性质。非欧式空间也往往具有同样的反常情况。“灾难”的一个表现时,在高维空间下,几乎所有的点对之间的聚类都差不多相等。另一个表现时,几乎任意的两个向量之间都是近似正交的。

性能度量

性能度量外部指标:

  • Jaccard系数(Jaccard Coeffient)
  • FM指数(Fowlkes and Mallows Index)
  • Rand指数(Rand Index)

性能度量外部指标:

  • DB指数(Davies-Bouldin Index)
  • Dunn指数(Dunn Index)

原型聚类

k均值算法(详见单独Blog)

k均值算法以k个随机质心开始。算法会计算每个点到质心的距离。每个点会被分配到距其最近的簇质心,然后紧接着基于新分配到的簇的点更新簇质心。以上过程重复数次至簇质心不变为止。

影响k-means效果的几个因素:初始簇质心、K值、距离度量

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值