聚类任务
聚类任务是无监督学习的一种,没有标记。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。聚类算法涉及两个基本问题—-性能度量和距离计算。
∙ 性能度量
聚类性能度量又称聚类“有效性指标”。聚类性能度量大致有两类。
“外部指标”:将聚类结果与某个“参考型”比较,常用的指标:Jaccard系数、FM指数、Rand指数
“内部指标”:直接参考聚类结果而不利用任何参考模型,常用的指标:DB指数、Dunn指数
∙ 距离计算
距离度量需要满足一些基本性质:非负性、同一性、对称性、直递性(三角不等式)。
给定样本 xi=(xi1;xi2;...;xin) 与 xj=(xj1;xj2;...;xjn) ,最常用的是“闽可夫斯基距离”
distmk(xi,xj)=(∑u=1n|xiu−xjp|p)1p
其中,当 p=1时