1.聚类简介
在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”。
聚类将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”(类别)。聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
形式化表达如下:
假定样本集包含m个无标记的样本,每个样本
是一个n维特征向量,则聚类算法将样本集D划分为k个不相交的簇
,其中
且
相应地,用表示样本
的“簇标记”,即
则,聚类的结果可用包含m个元素的簇标记向量表示。
聚类既能作为一个单独过程,用于寻找数据内在的分布结构&#x