一、聚类任务
在“无监督学习”(unsupervisedlearning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律,最常用的就是“聚类”(clustering)。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。聚类过程只能自动形成簇结构,簇对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
二、性能度量
聚类性能度量亦称聚类“有效性指标”(validityindex)。对聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。聚类的结果应该是“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-clustersimilarity)低。
聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。
三、距离计算
对函数dist(·,·),若它是一个“距离度量”(distancemeasure),则需要满足以下性质:非负性、同一性、对称性、直递性。
直递性:
给定样本,最常用的是“闵可夫斯基距离”(Minkowski distance)
上式显然满足距离度量的基本性质。
p=2时,即为欧