聚类分析个人笔记（未完）

④

已于 2024-07-09 17:48:38 修改

阅读量2.5k

点赞数 4

文章标签：聚类机器学习

于 2023-04-27 16:21:04 首次发布

本文链接：https://blog.csdn.net/qq_44794961/article/details/130223626

版权

前言

聚类的对象有两种，一是对样本进行聚类（Q型聚类），二是对变量进行聚类（R型聚类）；
聚类的方法大体上有五种类型，分别是基于划分、层次、密度、网格、模型的聚类（根据参考文献0）

1、K均值聚类

参考文献1
参考文献2

K均值聚类属于“基于划分的聚类”中的一种，根据文献0：
在这里插入图片描述

文献1中的例子非常形象地说明了K均值聚类的原理，结合文献2中对该方法优劣特点的总结：
在这里插入图片描述
以及其他文献中提到的：

其他注意事项：
在这里插入图片描述
关于K值选取的方法暂时不太懂，先搁置一下。不过根据SPSS的PDF，说的是如果事先能确定要聚成的类数数量，方可使用K-means聚类。但我们是否可以根据聚类输出的一些观测结果，来判断本次聚类的数量，以及初始聚类中心的选择是否合理呢？

SPSS的实现很简单，参照PDF教程来就行了，不过有一点值得注意的是：
在这里插入图片描述
在该对话框中，勾上ANOVA表后会输出一个方差分析表

当前薪金和初始薪金是本例中作为聚类依据的两个变量，该表的意义为：

按照方差分析的原理，聚类均方对应的就是组内均方（组内误差平方和/df），误差均方对应组间均方（组间误差平方和/df）

1.1 K-modes与K-prototype

k-means是针对数值型数据进行聚类，而k-modes是针对离散型（分类）数据进行聚类。两种算法的基本思想是一致的，区别在于计算每个样本与簇中心点的距离时，k-means用的是欧式距离（即常规的开根号），而k-modes用的是哈密顿（或称为汉明）距离。
以下来自GPT：

在这里插入图片描述

关于哈密顿距离的解释：
在这里插入图片描述

很好理解，也就是说如果两个样本在三个特征上的取值不同，则d=3，若在四个特征上取值不同，则d=4…以此类推。
还有一点不一样的在上面有提到，k-modes的簇中心是根据各个特征的众数来确定的。
————————————————————————————————————————————

至于K-prototype则是用于处理数值型和分类型特征都有的数据，具体见GPT：
在这里插入图片描述

不过混合距离的计算直接相加似乎有点太粗暴了，我就这一问题又问了GPT：
在这里插入图片描述

此外，在其他文章中有看到会在哈密顿距离的前面加一个权重系数：
在这里插入图片描述
此处就不深究了，先了解到这个程度就好。

更新：似乎对数值型变量进行归一化处理就可以了，毕竟我们在前面提过该算法对分类数据的距离计算方法（相同分类距离为0，不同分类距离为1），那么距离取值就在0-1之间；因此，为了保证数值型变量的距离计算量纲相当，仅需进行归一化处理即可。详情可见：

在这里插入图片描述

需要注意的是，并非只有K-prototype需要预处理，量纲的统一在各种聚类算法中都是需要注意的（例如二阶聚类也要）。

2 聚类效果的检验方法

参考文献3
参考文献4
参考文献5
对于前文中提出的疑问：

我们是否可以根据聚类输出的一些观测结果，来判断本次聚类的数量，以及初始聚类中心的选择是否合理呢？

进一步地，我们想要知道本次聚类的效果如何。上方的方差分析表可以起到一定的作用，让我们知道目前聚出来的几个类别之间的差异是否显著，但这还是远远不够的——假如说选择了不同的初始聚类中心，在同样的显著性水平下都是显著的，那到底哪一种更好呢？通过看F值的大小吗？；以及，类别之间的差异足够大，就能说明聚类效果很好吗？

基于上述的疑问，我们来看文献3和文献4。
文献3提到，评估的指标分为内部评估和外部评估两种类型。

2.1 聚类的可行性检验（聚类趋势评估）

在数据上应用任何聚类算法前，一个重要问题是，即使数据不包含任何集群，聚类方法也会返回群集。换句话说，如果盲目地在数据集上应用聚类算法，它也会将数据划分为聚类，因为这是它应该执行的。
因此，评估数据集是否包含有意义的聚类（即：非随机结构）有时会变得有必要。
此过程被定义为聚类趋势的评估或聚类可行性的分析。
而通常，与非随机结构相对的是均匀分布，霍普金斯统计量的计算原理，便是检查数据是否符合均匀分布。

进行聚类趋势评估通常是利用霍普金斯统计量，具体操作方法可见：文献6
在这里插入图片描述
简单解释一下，就是在样本空间中随机抽取n个点，计算每个点在整个样本空间中与距离自己最近的点的距离，然后将其累加得到Σxi；第二步就是在同样的定义域内，但是是根据均匀分布来抽取n个点，计算每个点与距离自己最近的点的距离，然后累加得到∑yi；第三步，我们就可以计算上图公式中的H了，∑yi作为均匀分布，既不会过于分散也不会过于集中，处于一个中间值的状态，假如样本也是接近均匀分布，那么H=0.5；假如样本非常分散，样本点之间的距离就会很大，∑xi也会远大于∑yi，从而让H→0；反之，如果样本很集中，H→1。通常我们可以认为，当 H 高于0.75表示在90%的置信水平下，数据集中存在聚类趋势。

2.2 外部评估指标

在这里插入图片描述

（等等，既然已经有少量的标注数据，知道真实标签的情况下，那还能称作是无监督学习吗？👈这个问题先放放，暂时没搞清楚）

2.1.1 纯度（purity）

以下摘自文献5，看example很好理解：
在这里插入图片描述

2.1.2 兰德系数（Rand Indexd,RI）

以下摘自文献3：

在这里插入图片描述

其中对于兰德系数RI的计算比较容易理解，但是F值我暂时没能理解，先做个公式分解：

根据文献5，红色部分是对precision赋予的一个惩罚系数，而绿色部分中的precision和recall同样在文献5中有英文解释，但我仍看不太懂，先放着。

还有一个外部评估指标叫做调整兰德系数，至于兰德系数有什么缺陷，为何需要调整兰德系数，以及调整兰德系数的原理是什么，我全都没看懂…

2.3 内部评估指标

文献4主要介绍了三种评估聚类效果的指标。这些指标不仅可以用在K-means聚类中，应该也可以普遍地适用于其他聚类方法。其中轮廓系数比较好理解，CH分数和DBI我只理解了部分，不过三种方法本质上都是根据组间差距和组内差距处理而成的公式，思想和方差分析差不多？在文中也介绍了三种方法的优缺点和适用范围，此处不再展开。

聚类的评估没有一个统一的标准，不同于有监督学习的理性评估，像聚类这种无监督学习的评估，分成多少类，每个类包含多少个样本，各个簇的划分标准是什么，是基于距离还是基于密度，一千个读者就有一千个哈姆雷特，众口难调。不过，一个统一的看法是，好的聚类模型都是簇内相似度高且簇间相似度低。

3.系统聚类（分层聚类）

系统聚类的定义根据PDF为：

在这里插入图片描述

其中提到的要点为：
限于样本数据量较小；
即可进行Q型聚类也可进行R型聚类；
（从其他文章中看来）单次分析只能使用同种类型的变量（要么全是连续要么全是分类，不过K均值聚类可以通过设置哑变量来处理，系统聚类能吗？）；
需要预处理；
有自上而下的分解法和自下而上的凝聚法两种类型

再来看看文献0中的说法：

在这里插入图片描述

阐述的内容大同小异，不过此处提到了“把数据划分到不同层的簇，从而形成一个树形的聚类结构…可以解释数据的分层结构…可以得到不同粒度的聚类结果”，这些叙述着重强调了“分层”，那么这是如何实现的呢？我们会随着后续的学习慢慢揭示。

3.1 AGNES聚类

文献7
文献8

AGNES聚类属于聚合聚类（凝聚法）中的一种，其主要原理思路为（摘自文献8）：

AGNES算法也属于无监督的数据分类算法。更细地划分，该算法属于自底向上的层次聚类算法。该算法的核心思路是，首先设定一个期望的分类数目n，一开始把每个数据样本都分别看成一个类，然后计算所有类之间两两的距离，找出距离最短的两个类，并把这两个类合并为一个类，到此则总类数减1。接着再重复上述过程：计算所有类之间两两的距离，找出距离最短的两个类，并把这两个类合并为一个类。以此类推，类总数逐渐减少，直到类总数减少到n为止，则停止分类。

上面这段话解释的很明白了，不过，每个类中都有很多个样本，要如何计算类与类之间的距离呢？
结合文献7、文献8，我们可以得知距离的计算有多种方法，例如：

在这里插入图片描述

（注意，当聚类刚开始的时候是把每个样本作为单独一类的，此时无论是最小、最大还是平均距离，事实上都只是两点之间的距离，起码要等到每一类中有两个样本后才能正式应用这些规则来计算类间距离）

来看看PDF中提到的距离计算方法：
在这里插入图片描述

组间链接其实就是上面提到的计算平均距离的方法；

组内链接的定义可参考文献9，相比组间链接只需计算不同组的样本距离，还要计算同组内的样本距离，把两种距离相加，作为最终的类与类之间的距离。（想想也合理，假如说我要把原本两组中的所有样本合并为一组的话，要求所有样本都足够紧凑会更加严谨）

除了数值型数据的距离测量方法，我们还要注意的是系统聚类也可以应用于二分类和计数（这是啥？）的数据，因此也有相应的测量方法：
在这里插入图片描述

其他方法暂时不深入研究，对于距离的讲解暂时告一段落。

————————————————————————————————————————————

AGNES聚类的具体实例参考文献7、8，相当简单形象。

优缺点：

1.简单，理解容易
2.合并点/分裂点选择不太容易
3.合并/分类的操作不能进行撤销
4.大数据集不太适合
5.执行效率较低

上方引用自文献0，再来看看文献7：

个人认为系统聚类的最大优势就是不需要我们进行划分类（比如K-Medioide就需要我们自己规定K值），我们只需要根据聚类图来作为决断依据即可。

那么，如何根据聚类图进行决断呢？以及上方提到的，AGNES聚类作为一种分层聚类，“分层”二字在何处体现？我们来参考文献7、8中的图示：

在这里插入图片描述

——————————————————文献8————————————————————————

在这里插入图片描述
我们既可以像文献8（第二张图）那样，事先设定最终要聚为3类，当达到3类时停止；也可以像文献7这样先将聚类执行到底，然后回过头来看看在哪个阶段停下来比较合适。至于何时停止，我认为一方面是根据相关行业的专业知识来判断，另一方面可以看看在每次聚类完成后，剩下几类中【类与类之间的距离】是多少，与聚类前相比距离发生了什么样的变化，虽然似乎缺乏一个客观的数值指标，但也能作为参照依据。

3.1.1结果解读

SPSS的实现步骤相对简单明了，所以就看一下对结果的解读。

在这里插入图片描述
这个表就是告诉你从每个个案作为一类，直到最后所有个案合成一类，即整个聚类的过程中每步都做了些什么。“下一阶段”这列指的是什么意思呢？比如第一行（第一阶段）中是把16、17两个样本聚合为一类，那么下一次和这一类发生关系是在第二阶段，把16、17、14三个样本聚合为一类；那么再下一次发生关系是什么时候呢？是13阶段，又把样本2合进来了，此时2、14、16、17合为一类…以此类推。至于“系数”是什么意思我暂时没搞懂。

PS：说实话一开始我感觉这个表没什么卵用，直接看后面的谱系图不就好了？不过仔细想想还是有点用的，比如在谱系图里16、17、14三个是合在一起的，并不能得到先是16+17，然后再+14这个信息。

—————————————————————————————————————————————

下一张图称为冰柱图：
在这里插入图片描述
该图是用来看“假如聚类数目为X的话，分类是怎么分的”，如上图中A这条红线代表聚类数目为2，此时从左数起第四条圆柱，也就是白色的冰柱达到或超过了A，其他冰柱都没有达到/超过A，这就说明18个省被分为两类，一类是该冰柱左边的山东、江苏，另一类则是其他省市；
在这里插入图片描述
同理，在聚类数目=5处画一条横线，发现有四条冰柱超过了该横线，18个省相对应的被分为5类。

—————————————————————————————————————————————

由于前面在统计对话框→聚类成员→方案范围中，最小/大聚类数分别输入了2和5：
在这里插入图片描述

于是在此处就输出了聚类为2、3、4、5种类别时，不同情况下的聚类结果：
在这里插入图片描述
—————————————————————————————————————————————
最后一张图为谱系图：

在这里插入图片描述

谱系图看起来就非常直观，不过横轴的数字0、5、10…25是什么意思？似乎也不是迭代次数啊，前面的凝聚计划表已经告诉我们了最多迭代17次。

待解决问题：系统聚类是如何进行R型聚类的？如果说进行Q型聚类是有N个维度的特征，从而通过距离原则进行聚类，那么R型聚类是怎么分辨变量之间是否相近的？←突然想到之前学过的因子分析就属于R型聚类←从一篇文章中看到，若是Q型聚类在方法中要选择“平方欧式距离”，若是R型聚类则为“Pearson相关”，但原理暂时还是不清楚

4.二阶聚类（BIRCH算法）

4.1 两个步骤

之所以叫做二阶聚类，是因为该聚类方法存在两个阶段：

第一步，预聚类、准聚类过程：
构建聚类特征树（CFT：Clustering Feature Tree），分成很多子类。
开始时，把某个观测量放在树的根节点处，它记录有该观测量的变量信息，然后根据指定的距离测度作为相似性依据，使每个后续观测量根据它与已有节点的相似性，放到最相似的节点中，如果没有找到某个相似性的节点，就为它形成一个新的节点。

第二步，正式聚类：
将以第一步完成的预聚类作为输入，对之使用分层聚类（PDF中说的是凝聚算法）的方法进行再聚类（对数似然函数）。
每一个阶段，利用施瓦兹贝叶斯信息准则（BIC）评价现有分类是否适合现有数据，
并在最后给出符合准则的分类方案。

为什么需要两个阶段的聚类呢？简单来说正式聚类是用来优化预聚类的，详细可见4.1.2

4.1.1 第一步：构建CFT（预聚类）

第一步中提到的聚类特征树是什么？特征树到底是如何形成的？里面提到的各种节点又是什么？
参考文献14
👆文献14非常详细地说明了算法原理，并且配上了容易理解的例子和图示，请务必看原文。

CF树的结构
由于后续学习的过程中感觉有点混乱，所以先在此处理一下CF树的整体结构。
CFT表现出来的是一个大于等于三层的结构树，第一层是“根节点层”，该层中有且只有一个节点，相当于分层聚类中使用凝聚法，凝聚到最后只剩一个的大类；
第二层是“内部节点层”，其实像神经网络一样，输入、输出层都是固定的，但中间的隐藏层理论上可以有n层（像在文献14的最后给出了一个四层的例子），此外，该层中可有多个内部节点，最大数量取决于我们设置的参数；
第三层是“叶子节点”层，该层中也可有多个叶子节点，最大数量取决于我们设置的参数。每个叶子节点中都包含着若干个样本，至于包含哪些样本取决于该叶子节点的超球体范围（什么是超球体见4.1.3的最后）
至于什么是频频提到的CF（clustering feature）：从空间上来看，CF就是节点，如4.1.2的图中所示，Root、LN1、sc1都是CF，样本点⊆叶子节点⊆内部节点⊆根节点；从数值特征来看，每个CF都是一个三元组（详见文献14），且具有线性可加性

4.1.2 第二步：正式聚类

在建立CFT（也就是所谓的预聚类、准聚类）后，就可以进行第二步的正式聚类。

所以正式聚类就是在CFT的基础上，采用现成聚类方法对CFT某一节点上的CF进行聚类。
例如在下图中，既可以对LN这层进行聚类，也可以对SC这层进行聚类（我个人理解应该是这样的）
在这里插入图片描述
准确来说不是对CF（clustering feature）进行聚类，CF只是一个三元组（N,LS,SS），里面包含的样本整体特征通过CF来表现出来。聚类时既可以是LN这层（“内部节点层”），也可以是SC这层（“叶子节点层”），但不管是哪层，聚类的对象都是CF中包含的样本。

不过，我们为什么要进行两步聚类，第一步建立的CFT不已经给出结果了吗？

文献0提到：
在这里插入图片描述

文献14提到：

在这里插入图片描述

又有某篇文献提到：
在这里插入图片描述
总之，第二步正式聚类是对第一步CFT的优化。而可优化的内容，根据文献14是“消除由于样本读入顺序导致的不合理的树结构，以及一些由于节点CF个数限制导致的树结构分裂。”

读入顺序和节点个数限制确实可能造成树结构的不合理OR分裂，但是用其他算法进行二阶聚类为什么能改善这个问题？

先来回顾下K-means是怎么做的：先在所有的样本中随机寻找K个作为聚类中心，然后以距离原则进行聚类，第一次聚类后计算出每一类的类中心（质心？），然后根据所有样本到所有类中心的距离进行重新聚类，重复这一过程直到分类不再发生变化。
那么，利用K-means进行二阶聚类的话就相当于在几个初步分好的类别上重复这一步骤。

为什么K-means能改善树结构不合理的问题？我们先来看看文献14中关于节点分裂部分的知识：

在这里插入图片描述

也就是说，假如没有LN1节点中CF个数限制的话，我们本可以把sc1、2、3、8都放入LN1中；由于存在个数限制，只能被迫将四个sc分别分在LN’1和LN’‘1两个内部节点里。换言之，如果我们对LN这层进行聚类，从相似性原则出发应该聚为3类，但迫于节点个数限制分为了4类，因此，K-means或者其他聚类算法或许能够将LN’1和LN’'1重新合并在一起。

👆说到这儿我又产生了新的疑问，为什么CFT要对每层节点中CF的数量进行限制呢？这么做的弊端目前能看出来，但有什么好处吗？以及，节点中CF的数量是如何确定的呢？根据现有经验/专业知识进行初步设定，然后再根据输出结果调整吗？

至于是如何解决因为样本导入顺序导致的树结构不合理，我没啥头绪。

4.1.3 BIRCH算法的优点

还有一个问题，我们大致搞明白了第二步正式聚类的作用，但是第一步预聚类，构建CFT又存在什么意义呢？相比于直接用K-means、AGNES聚类，先构建CFT有什么好处呢？为了搞清楚这个问题，需要来研究下该算法的优点和适用范围。

摘自文献14：
在这里插入图片描述
ps：最后提到的超球体，指普通球面在n维空间的推广。大概说的就是由于在叶子节点（sc这层）是以某个参数T作为半径画一个圆，来划定SC范围，从而将样本纳入SC中的；如果数据集的分布不是球状的话（随便打个比方，是细长的线性分布），可想而知形状对不上，因此效果会比较差👈我个人的理解不知道对不对

比方说文献0在“基于密度的聚类”中就有给出相应的示例：

在这里插入图片描述

BIRCH算法还存在一个重要的优点！！！👇
在这里插入图片描述

4.5 三种聚类方式的区别省流版

K均值算法的原理简单，实现起来收敛的速度也比较快，当不同的簇之间区别明显时，聚类效果好。但缺点是只能进行个案间的聚类，需要事先确定聚类的数目，不同初始聚类中心的选取对算法结果的影响较大，容易受离群值的影响。
系统聚类又分为凝聚法和分解法，其中凝聚法比较常见，最大的优势与K均值相比就是不需要手动去规定分为几类，可以观察聚类的执行过程（谱系图）再决定分类，但比较明显的缺点是不适合对大数据集使用（1000个样本要做999次才凝聚完毕）；
BIRCH算法适用于处理大规模数据，他只需要用树结构来表示数据，不需要加载整个数据集，所以内存占用更小。此外他和K均值相比能够更好的处理噪声数据和异常值，以及他对样本在多个层级上进行了分类，例如我们对学校进行分类，大的分类是小学中学大学，那大学里面还可以分为一本二本专科，一本里还有重点非重点之分。但BIRCH算法的缺点是需要进行复杂的调参，例如要调节叶子节点的容量等。以及对于高维数据，BIRCH算法也是不太合适的。

5 SPSS实现

讲完了原理，我们来看看SPSS中是如何实现的，顺带学一些调参相关的知识。
参考文献10
~~参考文献12~~
参考文献13←官方文档，感觉很多时候比莫名其妙的教程详细很多，不过就是没有图也没有实例示范

基本上按照文献10或者PDF来就可以了，有几个需要注意的点额外提一下：

数据预处理

文献13有提到需要数据预处理：
在这里插入图片描述

距离测量
全是连续变量选欧式距离，有分类有连续选对数似然
聚类准则
AIC和BIC的说明见下方4.2.1
离群值处理
文献10说的有点乱，应当参考PDF：

在这里插入图片描述

不选择噪声处理的话相对好理解，即通过扩大叶子节点中CF的半径阈值来重新生长CFT，尝试把离群值纳入CF中，实在无法纳入的就剔除。

但选择噪声处理有一点不理解的地方，如何判断噪声节点在CF树再次长满后，是否还停留在树上？
（比如噪声叶子无法包含在现有内部节点的CF中，如果要创建新的CF则会超出上限？不确定这样是否是对的）。以及，我还是不太清楚树的重新生长是如何实现的，是排除掉离群值，让剩下的样本重新生长，然后看看离群值（噪声叶子）能不能加到这个树里面来吗？

5.1 聚类准则（AIC or BIC）

参考文献11

文献11的排版和叙述说的有些乱，这里简单整理一下。

AIC和BIC都是进行模型选择的方法。过往，我们通常利用R²、adj R²以及例如逻辑回归中各种各样的R²来评判不同模型的好坏，AIC/BIC也是类似的方法，但不像R²一样存在一个客观标准，能告诉我们该模型的解释度是多少，主要还是在不同模型中进行比较、选择。

AIC= -2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterion BIC= -2
BIC= -2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion
L是在该模型下的最大似然，n是数据数量，k是模型的变量个数。

在逻辑回归的文章中，我们有提到过似然值、似然比检验、-2对数似然（-2LL）等概念。当似然函数取得最大值时，估计的参数值就越靠近其实际值，所以我们希望似然值尽可能大，相对应的就是对数似然值尽可能大，-2LL尽可能小，这意味着模型越精确。（虽然我不清楚从参数估计到此处的模型选择发生了什么样的变化，以及实际上是如何实现的，上述讨论仅限于宏观原理）
而K是模型的变量个数，K越小意味着模型越简洁。
综上，AIC = -2 ln(L) + 2 k 越小，就说明这个模型越好。AIC这一指标同时兼顾了精确性和简洁性。

-2ln(L)反映模型的拟合情况，当两个模型之间存在较大差异时，差异主要体现在似然函数项-2ln(L)，当似然函数差异不显著时，模型参数的惩罚项2k则起作用，随着模型中参数个数增加，2k增大，AIC增大，从而参数个数少的模型是较好的选择。AIC不仅要提高模型拟合度，而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。然后，选一个AIC最小的模型就可以了。

说完了AIC，来看看BIC。从公式中能够看出，两者是较为相似的，只是AIC中对模型参数的惩罚是固定的常数2，而BIC则考虑了样本数量，样本量越大，对参数的惩罚越大。
👆等等，参数（变量）过多容易造成过拟合这点我知道，但这跟样本量有啥关系？
参考文献15
文献15中提到：

当样本容量很大时，在AIC准则中拟合误差提供的信息就要受到样本容量的放大，而参数个数的惩罚因子却和样本容量没关系（一直是2），因此当样本容量很大时，使用AIC准则选择的模型不收敛与真实模型，它通常比真实模型所含的未知参数个数要多。

如果我们用R²来思考的话，由于R²是一个百分比，所以无论样本容量有多大，表现出来的始终是一个相同的比率。然而在这两种准则中，我们测量模型精确性的指标是-2LL，它不像R²一样是一个相对比率，而是绝对大小！因此当样本量越大的时候，-2LL自然会被放大，其中拟合误差提供的信息也也会被放大，因此有必要随着样本量的增加予以更加严厉的惩罚。👈这我都能自己想出来，太牛了

不过这么来看的话，BIC就会比AIC是一个更加优秀的统计量？两者在不同的环境中是否存在优劣之分呢？

5.2 结果解读

在这里插入图片描述
根据上面对BIC的学习，BIC是越小越好的；而第三列BIC变化量指相对于前一种聚类数目，BIC变化了多少，一般来说较大的BIC更改比率意味着这一步迭代的效果较好；第四列BIC变化比率，就是把第二行的变化量-240作为基础参考系，计算其他几次迭代的变化量占-240的比率，第四列和第三列的意义差不多；第五列距离测量比率不知道是什么意思。总之，主要还是看BIC的变化量，因此本例中最终聚类数为3。