李航老师《统计学习方法》第十四章聚类方法课后题答案

六七～

已于 2022-11-09 14:31:25 修改

阅读量4.2k

点赞数 7

分类专栏：统计学习方法第二版文章标签：聚类算法数据挖掘

于 2021-05-15 20:20:19 首次发布

本文链接：https://blog.csdn.net/qq_41626059/article/details/116854038

版权

统计学习方法第二版专栏收录该内容

20 篇文章

订阅专栏

这篇博客深入探讨了分裂聚类算法的自上而下实现及其时间复杂度，证明了类定义之间的相互推导，并展示了k均值算法解的指数级数量。同时，对比了k均值聚类与高斯混合模型在EM算法下的异同，指出两者在应用场景和收敛性上的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

其他章节答案请参考我的汇总统计学习方法答案汇总，都是自己写的。

1、试写出分裂聚类算法，自上而下地对数据进行聚类，并给出其算法复杂度。

解：
算法流程大致如下：
输入：数据集T，指定需要划分的簇数k
输出：k个数据集的子集

将数据集T中的所有样本作为一个初始簇。
在所有的簇中选择直径最大的簇记为 $C_0$ 。
计算簇 $C_0$ 中所有的点到其他点的平均距离最大的点 $p_0$ 放在一个新的簇 $C_{new}$ 中， $C_0$ 中剩余的样本构成的簇记为 $C_{old}$
然后重复一下过程：对 $C_{old}$ 中的点 $x$ ，如果 $x$ 到 $C_{new}$ 的距离比 $x$ 到 $C_{old}$ 中距离 $x$ 最近的点的距离要小，那么就将点 $x$ 放在新的簇 $C_{new}$ 中，除了点 $x$ 剩下的点还记为 $C_{old}$ ，重复这个过程，直到 $C_{old}$ 中没有点可以放在 $C_{new}$ 中。
如果不满足停止条件，从步骤2开始继续重复。

时间复杂度是 $O(KN^2M)$ ,其中 $K$ 是类别数， $N$ 是数据集样本数， $M$ 是样本的维度。

2、证明类或者簇的四个定义中，第一个定义可以推出其他的三个定义。

证明：
**第一个定义推第二，三个定义：**由定义一的定义可知，推出第二、三个定义是是显然的。
下面证明第一个定义推出第四个定义：
我们知道 $n_G$ 是 $G$ 中的样本的个数，对G中任意一个样本 $x_i$ ,除了 $x_i$ 还剩下 $n_G - 1$ 个样本。
且有 $d_{ij}\le T$
所以有
$\frac{1}{n_Gn_G-1}\sum_{x_i \in G}\sum_{x_j \in G}d_{ij} \\ \le \frac{1}{n_Gn_G-1}\sum_{x_i \in G}\sum_{x_j \in G}T \\ \le T \frac{1}{n_Gn_G-1}\sum_{x_i \in G}\sum_{x_j \in G}1 \le T$

3、证明k均值的可能解的个数是指数级的。

证明：
其实这是第二类的斯特林数！！！
感觉书上给的公式是错误的，如下：
$S(n,k)=\frac{1}{k!}\sum_{l=1}^{k}(-1)^{k-l}\binom{k}{l}k^{n}$
比如取n = 5,k = 3,结果不是整数，这显然是不可能的。
应该将公式改为
$S(n,k)=\frac{1}{k!}\sum_{l=1}^{k}(-1)^{k-l}\binom{k}{l}l^{n}$
可以采用动态规划的方法给出这个题的递推公式。
设 $D p [n] [m]$ 是指将第n个球放在m个盒子，总的放置方法数
那么
$D p [n] [m] = D p [n - 1] [m] + m * D p [n - 1] [m]$
第一部分 $D p [n - 1] [m]$ 是指将第n个球放在了一个新的盒子里，此时说明前面的n-1个球已经放在了k-1个盒子里面了。
第二部分 $m * D p [n - 1] [m]$ 是指前面的n-1个球放在了m个盒子里面，此时由于要求没有空盒子，那么第n个球可以随便放m个盒子的任意一个里面，因而有m*Dp[n-1][m]种放置方法。
其实这是利用了 动态规划 的思想给出了球的放置方法的递推公式，使用生成函数证明该题的方法如下
在这里插入图片描述

再在公式(46)中取 $l = k - i$ 进行变量的替换就可以得到书中的公式。