【Estimation of the Number of Clusters】On the True Number of Clusters in a Dataset in AAAI 2019 个人理解

最新推荐文章于 2024-07-05 22:11:15 发布

Fulin_Gao

最新推荐文章于 2024-07-05 22:11:15 发布

阅读量159

点赞数

分类专栏： Estimation Cluster Number 文章标签：聚类

本文链接：https://blog.csdn.net/beginner1207/article/details/131436848

版权

Estimation Cluster Number 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、简介

题目： On the Persistence of Clustering Solutions and True Number of Clusters in a Dataset
会议： AAAI 2019
任务： 估计无标签数据的类别数量 $k$ 并聚类。
Idea： 作者认为在不同的分辨率下聚类结果不同，当分辨率很小时，我们只能看到事物的轮廓却看不到细节，在这种情况下，我们几乎无法区分样本之间的差别，所有样本都会被认作同一类；反之，分辨率很大时，我们可能过于关注细节，在这种情况下，每个样本都是独特的无法与其它样本并称一类。
于是，作者从确定性退火（deterministic annealing, DA）算法中提取退火参数 $\beta$ 用来衡量分辨率，每个 $k$ 都会对应一个分辨率区域（作者称该区域大小为persistence，在该区域内我们对聚类结果或簇的数量的判断不会改变），所对应区域最大的 $k$ 即为要找的 $k$ 。
Note： 优点：该方法与聚类算法独立，可搭配任何聚类算法使用；
缺点：需要从1遍历到预设的 $k_{\max}$ ，若单次聚类算法运行时间较长将产生较为昂贵的时间成本。

如（a2）所示，直观上，若以蓝圈为分辨率，则类别数可视为3；若以绿圈为分辨率，则类别数可视为9。每个 $k$ 所对应的分辨率区域，即persistence指的就是这个圈可改变的范围。显然，蓝圈成比例缩小直至碰到绿圈前都可以将类别数视为3，但绿圈却只能缩小至红圈，继续缩小类别数可能就不再是9了。同一 $k$ 下，分辨率所能变化的范围作者使用 $\log\bar\beta_k\!-\!\log\bar\beta_{k-1}$ （ $\bar\beta$ 由 $\beta$ 改造而来）来衡量，变化曲线如（a3）所示，可见persistence最大的是 $k\!=\!3$ 。相应地，由（b3）可以看出， $k\!=\!9$ 更适合（b2）。

二、详情

1. 量化分辨率

有了以上介绍，我们会发现最重要的是如何将分辨率量化出来，并且这个量化指标应该有很小时会使样本无法区分，很大时会使样本差异过于明显的特点。

作者在DA算法中找到了这样一个参数，即 $\beta$ 。DA将聚类视为一个设施选址问题（facility location problem, FLP），简单来说，就是像 $k$ -means那样选簇的质心的问题，形式化的表示如下：

其中， $\mathcal Y=\{\textbf{y}_\textbf{j}:\textbf{y}_\textbf{j}\in\mathbb R^d,1\leq j\leq k\}$ 是 $k$ 个质心， $\mathcal X=\{\textbf{x}_\textbf{i}:\textbf{x}_\textbf{i}\in\mathbb R^d,1\leq i\leq N\}$ 是 $N$ 个样本， $d(\textbf{x}_\textbf{i},\textbf{y}_\textbf{j})$ 为两者的欧式距离， $p_i=1/N$ 。事实上，就是令各样本到最近质心的距离之和最小。

在DA算法中，上式被近似为如下优化问题：

其中，参数 $\beta$ 为退火参数用来调控 $F$ 与 $D$ 的近似程度。 $\beta\!\rightarrow\!\infty$ 时， $F$ 收敛于 $D$ ； $\beta\!\rightarrow\!0$ 时， $F$ 与 $D$ 表现出显著差异。

该近似后的优化问题实际还是要求 $\mathcal Y$ ，所以给定 $\beta$ ，令 $\frac{\partial F}{\partial\textbf{y}_\textbf{j}}\!=\!0$ ，有

其中，

此时，如果 $\beta\!\rightarrow\!0$ ，则 $p(j|i)\!\rightarrow\!1/k$ ， $\textbf{y}_\textbf{j}\!\rightarrow\!(\sum_{i=1}^N\textbf{x}_\textbf{i})/N$ ，则对于不同的 $\textbf{x}_\textbf{i}$ ， $\textbf{y}_\textbf{j}$ 都是一致的。简单来说，就是只有一个质心，所有样本都属于同一个类。随着 $\beta$ 增加，不同 $\textbf{x}_\textbf{i}$ 的 $e^{-\beta d(\textbf{x}_\textbf{i},\textbf{y}_\textbf{j})}$ 差异开始体现，开始不再属于同一个类。最后 $\beta\!\rightarrow\!\infty$ ，不同 $\textbf{x}_\textbf{i}$ 的 $e^{-\beta d(\textbf{x}_\textbf{i},\textbf{y}_\textbf{j})}$ 差异显著，此时需要为每个样本都分配一个质心。

综上， $\beta$ 便是满足我们需求的参数，进而我们也可以使用 $\log\beta$ 来量化分辨率。

2. 量化persistence

有了分辨率的量化，我们还需要量化 $k$ 保持不变时分辨率的可变化范围，即persistence。换句话说，就是 $\beta$ 在什么范围内变化能使 $F$ 的解 $\mathcal Y$ 不变。

于是，作者对优化问题 $F$ 做了松弛，要求对所有有限扰动 $\Psi$ 来说，最优质心 $\mathcal Y$ 满足如下条件：

其实就是希望 $F$ 的所允许的解 $\mathcal Y$ 的范围能够更大一些。

当扰动 $\Psi$ 过大使 $H(\mathcal Y,\Psi,\beta)$ 不再正定时，对于某个 $\beta$ 值，簇的质心 $\mathcal Y$ 就不再是 $F$ 的最小值。简单来说， $H(\mathcal Y,\Psi,\beta)$ 正定的时候质心 $\mathcal Y$ 不会发生大的变动（数量不变），此时所对应的分辨率 $\beta$ 的范围大小就是当前解 $\mathcal Y$ 的persistence。

所以要想计算出persistence，就要找到临界的 $\beta$ ，也就是使 $H(\mathcal Y,\Psi,\beta)$ 非正定的点。首先，计算出 $H(\mathcal Y,\Psi,\beta)$ ，得到如下结果：

其中， $I$ 为单位矩阵，

可以发现， $H(\mathcal Y,\Psi,\beta)$ 失去正定性的点在 $\det[I-2\beta C^k_{\mathcal X|\textbf{y}_\textbf{0}}]\!=\!0$ 处，其中 $\textbf{y}_\textbf{0}\!\in\!\mathcal Y$ 。于是，在 $\mathcal Y$ 中有 $k$ 个质心时，临界值为

其中， $\lambda_{\max}(C^k_{\mathcal X|\textbf{y}_\textbf{0}})$ 是 $C^k_{\mathcal X|\textbf{y}_\textbf{0}}$ 的最大特征值， $\textbf{y}_\textbf{0}\!=\!\arg\max_{\{\textbf{y}_\textbf{j}\}}\lambda_{\max}(C^k_{\mathcal X|\textbf{y}_\textbf{j}})$ 。超过该临界值 $\beta_k$ ，簇的数量 $k$ 就应该加1了。

这样，在每个 $k$ 都能计算出一个 $\beta_k$ ，就可以定义 $v(k):=\log\beta_k\!-\!\log\beta_{k-1}$ 为persistence。所期望的 $k_t$ 就是 $arg\max_kv(k)$ 。

但是，这样每次求解都要计算 $p (j ∣ i)$ ，为了减少计算（或者说将persistence的计算与DA算法独立），作者将软分配 $p(j|i)\in[0,1]$ 替换为硬分配 $\nu_{ij}\in\{0,1\}$ 。当样本 $\textbf{x}_\textbf{i}$ 属于簇 $\pi_j$ 时 $\nu_{ij}\!=\!1$ ；否则， $\nu_{ij}\!=\!0$ 。于是，有

相应地，我们所期望的 $k_t$ 就通过下式计算：

其中，

3. 算法流程

最后，可形成如下确定最优 $k$ 的流程：

其中，上一节的最后两个公式分别为(11)和(12)。

Fulin_Gao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
【Estimation of the Number of Clusters】On the True Number of Clusters in a Dataset in AAAI 2019 个人理解

估计无标签数据的类别数量k并聚类。
复制链接

扫一扫