1 聚类任务
在无监督学习中,获取的数据集是没有label信息的,无监督学习的目的是对无label的数据集进行学习以揭示数据内部的性质及规律,为进一步的数据分析提供基础。
聚类是最常见的无监督学习任务。
聚类的目的是试图将数据集中的样本分成若干个不相交的子集,每一个子集称为一个簇,每个簇对应一个潜在的概念,如“浅色瓜”“无籽瓜”等。但是要注意的是,每个簇的概念是由使用者来定义的,聚类算法只是将具有形似性质的样本聚类成簇,而不同簇表示的含义对聚类算法而言是未知的。
形式化的定义聚类过程,就是对于无标记的数据集D={x1,x2,⋯,xm},xi∈Rn,经过聚类之后形成k个不相交的簇{Cl∣l=1,2,⋯,k},其中⋃i=1kCi=D,Cl⋂Cl′=∅(l̸=l′)。
聚类可以作为单独的应用,用于发掘数据的内在结构。也可以用作其他应用的前驱过程,例如在一些商业应用中,往往先对用户类型聚类成簇之后,再对新用户的类型进行判别。
2 聚类度量
聚类度量是表述聚类结果好坏的标准。
对聚类结果,总体而言,是希望属于同一簇的样本尽可能相似,属于不同簇的样本差距尽可能大,也就是希望达到“簇内相似度高”、“簇间相似度低”的效果。
聚类度量可以分为两类,一类是有外部参考结果的外部指标;另一类是无外部参考结果的内部指标。
2.1 外部指标
数据集D={x1,x2,⋯,xm},通过聚类给出簇划分C={C1,C2,⋯,Ck},外部参考模型给出的簇划分结果为C∗={C1∗,C2∗,⋯,Cs∗}&#