第十四章聚类方法.14.2.4确定最佳聚类数

最新推荐文章于 2024-03-12 15:43:45 发布

oldmao_2000

最新推荐文章于 2024-03-12 15:43:45 发布

阅读量3k

点赞数 2

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/oldmao_2001/article/details/115872340

版权

统计学习方法专栏收录该内容

36 篇文章 16 订阅

订阅专栏

文章目录

主要内容
确定最佳聚类数

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

主要内容

确定最佳聚类数初步方法：理解给定阈值法，数据点散布图法
总离差平方和的分解：SST=SSA+SSE
聚类相关统计量： $R^2$ 统计量定义与表达式理解
统计量法：半偏 $R^2$ 统计量：半偏 $R^2$ 统计量定义与表达式理解
统计量法：伪F统计量：伪F统计量定义与表达式理解
统计量法：伪 $t^2$ 统计量：伪 $t^2$ 统计量定义与表达式理解
谱系图法：根据谱系图进行分类的准则
伪F统计量案例分析：观察伪F统计量值与分类数的散点图，分析聚类树形图

确定最佳聚类数

选定某种聚类方法，按系统聚类的步骤并类后，得到谱系聚类图，反映样本（或变量）间的亲属关系。

1、给定阈值

给出合适的阀值 $T$ ，当类间距离 $\le T$ 时，形成的各个类中所包含的样品间关系密切，应属于同一类；反之不并类。

2、数据点散布图

a.若考察2个指标，可通过数据点的散布图直观确定类的个数。
b.若考察3个指标，可通过绘制三维散布图，旋转三维坐标轴，由数据点的分布确定应分为几个类。
c.若考察3个以上指标，可由这些指标综合出2个或3个综合变量，绘制数据点在综合变量上的散布图。

3、根据统计量分析聚类数量

预备知识

总离差平方和（Sum of Squares Total）
残差平方和（Sum of Squared Errors）
回归平方和（Sum of Squares Regression ）
组间离差平方和 (Sum of Squares for factor A)

这里关于总离差平方和的分解简单推导一下：
$\sum_{i=1}^n(y_i-\bar y)^2=\sum_{k=1}^K\sum_{i=1}^{n_k}(y_i^{(k)}-\bar y^{(k)})^2+\sum_{k=1}^K\sum_{i=1}^{n_k}(\bar y^{(k)}-\bar y)^2$
右边第一项第k类里面的第i项 $y_i^{(k)}$ 减去该类平均值 $\bar y^{(k)}$ ，然后累加该类的 $n_k$ 项，累加K个类；第二项是第k类平均值 $\bar y^{(k)}$ 减去总平均值 $\bar y$ ，然后累加该类的 $n_k$ 项，累加K个类。
本来右边是：
$\sum_{k=1}^K\sum_{i=1}^{n_k}(y_i^{(k)}-\bar y^{(k)}+\bar y^{(k)}-\bar y)^2$
两两看成一项展开：
$\sum_{k=1}^K\sum_{i=1}^{n_k}(y_i^{(k)}-\bar y^{(k)})^2+\sum_{k=1}^K\sum_{i=1}^{n_k}(\bar y^{(k)}-\bar y)^2\\ +2\sum_{k=1}^K\sum_{i=1}^{n_k}(y_i^{(k)}-\bar y^{(k)})(\bar y^{(k)}-\bar y)$
在计算内层累加的时候 $(\bar y^{(k)}-\bar y)$ 不用累加（没有i），只用算前面一项：
$\sum_{i=1}^{n_k}(y_i^{(k)}-\bar y^{(k)})=\sum_{i=1}^{n_k}y_i^{(k)}-\sum_{i=1}^{n_k}\bar y^{(k)}\\ =n_k\bar y^{(k)}-n_k\bar y^{(k)}=0$
所以交叉项为0.
有了这个结论，我们来看如果有一个矩阵，其每个列都是一个类：
$\begin{bmatrix} x_{11} & x_{12} &\cdots &x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} &x_{n2} &\cdots &x_{np} \end{bmatrix}\\\begin{matrix} \bar x_1 & \bar x_2 & \cdots& \bar x_p \end{matrix}$
那么这个矩阵的总离差平方和的分解为（各个类减去该类均值）：
$(x_{11}-\bar x_1)^2+\cdots+(x_{n1}-\bar x_1)^2+\cdots+(x_{1p}-\bar x_p)^2+\cdots+(x_{np}-\bar x_p)^2$

把总的影响平方和记为SST，它分为两个部分，一部分是由控制变量引起的离差，记为SSA(组间离差平方和)，另一部分是由随机变量引起的SSE（组内离差平方和）。
即SST=SSA+SSE。
F记为
$F=\cfrac{SSA/(k-1)}{SSE/(n-k)}$
那么它是服从分布 $F (k - 1, n - k)$
当数据集的F大于上面的 $F_\alpha$ 表明组间离差平方和较大（k个类的差异较大）。反之类间的差异不明显。

$R^2$ 统计量

$R^2=\cfrac{SSR}{SST}=\cfrac{\sum_{i=1}^n(\hat y_i-\bar y)^2}{\sum_{i=1}^n(y_i-\bar y)^2}$
$\hat y_i,y_i$ 分别是估计值和真实值，如果预测准确，二者非常接近，则 $R^2$ 趋近于1。
假定数据集已将样本分为k类， $G_1,G_2,\cdots,G_k$ ，第i类含样品数 $n_i$ ，且有： $n_1+n_2+\cdots+n_k=n$ ，记 $G_t$ 重心为 $\bar X^{(t)}$ ， $G_t$ 中第i个样本为： $\bar X^{(t)}_{(i)},(i=1,2,\cdots,n_t)$ ，所有样本的重心为 $\bar X$ ，则 $G_t$ 类中 $n_t$ 个样本的离差平方和为：
$W_t=\sum_{i=1}^{n_t}(\bar X^{(t)}_{(i)}-\bar X^{(t)})^T(\bar X^{(t)}_{(i)}-\bar X^{(t)})$
所有样本SST：
$SST=\sum_{t=1}^k\sum_{i=1}^{n_t}(\bar X^{(t)}_{(i)}-\bar X^{(t)})^T(\bar X^{(t)}_{(i)}-\bar X^{(t)})$
SST可以分解(上面的形式是：SST=SSA+SSE)：
$SST=\sum_{t=1}^kW_t+B_k=P_k+B_k$
令 $R^2_k=\cfrac{B_k}{SST}=1-\cfrac{P_k}{SST}$
$R^2$ 越大，则类间差异越明显。

半偏 $R^2$ 统计量

$半偏R^2=\cfrac{B_{KL}^2}{SST}=R^2_{k+1}-R^2_{k}$
如果某一个步骤的半偏 $R^2$ 越大，说明这一步取消一个分类后（从k+1分类变成k类）的类间差异变小了，因此上一个步骤分为k+1个分类聚类效果好。

伪F统计量

$伪F_k=\cfrac{(SST-P_k)/(k-1)}{P_k/(n-k)}=\cfrac{B_k}{P_k}\cfrac{n-k}{k-1}$
因为我们不知道原总体理论分布是否为正态分布，因此 $F_k$ 统计量并不精确服从F分布，若某步骤伪 $F_k$ 统计量较⼤，则表明这n个样品可显著地分为k个类

伪 $t^2$ 统计量

$伪t^2=\cfrac{B^2_{KL}}{(W_K+W_L)/(n_K+n_L-2)}$
若某步骤伪 $t^2$ 统计量值较大，则表明 $G_K$ 和 $G_L$ 合并为 $G_{KL}$ 后类内离差平方和增量 $B^2_{KL}$ 比 $G_K$ 和 $G_L$ 合并前的类内离差平方和大，那么就说明上一步没有合并前的 $G_K$ 和 $G_L$ 两个类的类间差异较大，不应该合并为 $G_{KL}$ 。

谱系图

Bermirmen(1972）提出根据谱系图进⾏分类的准则：
a.各类重心间距离较远
b.确定的类中各类包含元素不宜多
c.分类数符合研究目的
d.若运⽤集中不同的聚类方法处理，则应在各自的聚类图中发现相同的类

oldmao_2000

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
第十四章聚类方法.14.2.4确定最佳聚类数

文章目录主要内容确定最佳聚类数本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。公式输入请参考：在线Latex公式主要内容确定最佳聚类数初步方法：理解给定阈值法，数据点散布图法总离差平方和的分解：SST=SSA+SSE聚类相关统计量：R2R^2R2统计量定义与表达式理解统计量法：半偏R2R^2R2统计量：半偏R2R^2R2统计量定义与表达式理解统计量法：伪F统计量：伪F统计量定义与表达式理解统计量法：伪t2t^2t2统计量：伪t2t^2t2统计量定义与表达式理解
复制链接

扫一扫