聚类:在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。聚类试图将数据集中的样本划分为若干个通常是不相交的子集。每个子集称为一个“簇”。
性能度量:聚类性能度量也称聚类“有效性指标”。与监督学习中的性能度量作用相似。要求“簇内相似度高”,“簇外相似度低”。
聚类性能度量大致有两大类:一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。
外部指标:Jaccard系数,FM指数,Rand指数,性能度量的结果值均在[0, 1]区间,值越大越好。
内部指标:DB指数,越小越好;Dunn指数,越大越好。(“簇内,簇间”的关系)
距离计算dist(. , .):
1.非负性:dist( ,)>= 0
2.同一性:dist( ,)= 0,当且仅当xi = xj;
3.对称性:dist(xi, xj)= dist(xj, xi);
4.直递性:dist(xi, xj) <=dist(xi, xk)+dist(xk, xj);(可不满足,称为非度量距离)
最常用:闵可夫斯基距离== Lp范数
我们通常将属性划分为连续属性和离散属性,属性的有无“序”关系更重要,闵科夫斯基距离可用于有序属性。
VDM(Value Difference Metric):无序属性使用
VDM + 闵科夫斯基距离:处理混合属性。
属性重要性不同:加权闵科夫斯基距离。
原型聚类:亦称为“基于原型的聚类”,此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法。
k均值法:给定样本集,k均值算法针对聚类所得簇划分C最小化平方误差。刻画了簇内样本围绕簇均值向量的紧密程度。
学习向量量化(LVQ):与k均值向量化类似,也是试图找到一组原型向量来刻画聚类结构,但与一般的聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。
高斯混合聚类:与k均值、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型,簇划分则由原型对应后验概率确定。每个高斯成分的混合系数由样本属于该成分的平均后验概率确定。
密度聚类:基于密度的聚类,此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
层次聚类:试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用‘自底向上’的聚合策略,也可采用‘自顶向下’的分拆策略。
AGNES:是一种自底向上的聚合策略。它先将每个样本看作一个初始聚类簇,然后在算法运行的每一步中找处距离最近的两个聚类簇进行合并,不断重复该过程,直至达到预设的聚类簇个数。关键是如何计算聚类簇之间的距离。
聚类簇之间距离决定:最小距离--单链接算法;最大距离--全链接算法;平均距离--均链接算法。