聚类

聚类任务

  聚类任务是无监督学习的一种,没有标记。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。聚类算法涉及两个基本问题—-性能度量和距离计算。

性能度量
  聚类性能度量又称聚类“有效性指标”。聚类性能度量大致有两类。
  “外部指标”:将聚类结果与某个“参考型”比较,常用的指标:Jaccard系数、FM指数、Rand指数
  “内部指标”:直接参考聚类结果而不利用任何参考模型,常用的指标:DB指数、Dunn指数

距离计算
  距离度量需要满足一些基本性质:非负性、同一性、对称性、直递性(三角不等式)。
  给定样本 xi=(xi1;xi2;...;xin) xj=(xj1;xj2;...;xjn) ,最常用的是“闽可夫斯基距离”

distmk(xi,xj)=(u=1n|xiuxjp|p)1p

其中,当 p=1
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值