【自然语言处理】【聚类】TELL：可解释神经聚类

BQW_

已于 2022-05-22 12:35:25 修改

阅读量3.7k

点赞数 5

分类专栏：自然语言处理文章标签：聚类自然语言处理可解释性深度学习神经网络

于 2022-05-04 10:15:00 首次发布

本文链接：https://blog.csdn.net/bqw18744018044/article/details/124532018

版权

自然语言处理专栏收录该内容

135 篇文章

订阅专栏

本文介绍了一种名为TELL的神经网络聚类算法，它在无监督学习中实现可解释性，通过可微分的k-means改进，支持在线聚类和表示学习。文章详细阐述了算法原理、挑战及解决方案，包括解耦权重和偏差、规范化训练以及端到端的聚类与表示学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

超越分类的XAI：可解释神经聚类 《XAI Beyond Classification: Interpretable Neural Clustering》

论文地址：https://www.jmlr.org/papers/volume23/19-497/19-497.pdf

相关博客：
【自然语言处理】【聚类】基于神经网络的聚类算法DEC
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL
【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘
 【自然语言处理】【聚类】DeepAligned：使用深度对齐聚类发现新意图
 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图
 【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法
 【计算机视觉】【聚类】SwAV：基于对比簇分配的无监督视觉特征学习
 【计算机视觉】【聚类】CC：对比聚类
 【计算机视觉】【聚类】SeLa：同时进行聚类和表示学习的自标注算法
 【自然语言处理】【聚类】ECIC：通过迭代分类增强短文本聚类
 【自然语言处理】【聚类】TELL：可解释神经聚类

一、简介

本文研究了可解释AI( $\text{XAI}$ )和数据聚类这两个挑战性问题。第一个问题是如何设计一种具有固定可解释性的神经网络，而不是给出一个黑盒模型的事后解释。第二个问题是，使用可微分神经网络来实现离散的 $\text{k-means}$ ，其拥有具有并行计算、在线聚类和聚类友好的表示学习等优势。为了解决这两个挑战，本文设计了一种新颖的神经网络，该网络是普通 $\text{k-means}$ 的可微分版本，称为 $\text{TELL(Terpretable nEuraL cLustering)}$ 。本文贡献有三部分：首先，许多可解释工作专注在有监督范式，本文的工作是少有的无监督学习上的可解释性研究。其次， $\text{TELL}$ 是一个可解释，或者称为本质上可解释且透明的模型。相反，许多现有的可解释AI研究( $\text{XAI}$ )采用各种方式理解带有事后解释的黑盒模型。最后， $\text{TELL}$ 具有 $\text{k-means}$ 所期望的各种性质，包括但不限于在线聚类、即插即用、并行计算和可证明的收敛。

二、标准 $\text{k-means}$ 的不足

给定一个数据集 $\textbf{X}=\{\textbf{X}_1,\textbf{X}_2,\dots,\textbf{X}_n\}$ ， $\text{k-means}$ 的目标是通过最小化簇内数据点的距离来将每个数据点 $\textbf{X}_i$ 分组至 $k\leq n$ 个集合 $\mathcal{S}=\{\mathcal{S}_1,\mathcal{S}_2,\dots,\mathcal{S}_n\}$ 的一个，即
$\mathop{\text{argmin}}_\mathcal{S}\sum_j\sum_{\textbf{X}_i\in\mathcal{S}_j}\parallel\textbf{X}_i-\Omega_j\parallel_2^2 \tag{1}$
其中， $\Omega_j$ 表示第 $j$ 个簇中心，其是由 $\mathcal{S}_j$ 中数据点的均值计算所得。即
$\Omega_j=\frac{1}{|\mathcal{S}_j|}\sum_{\textbf{X}_i\in\mathcal{S}_j}\textbf{X}_i\tag{2}$
其中， $|\mathcal{S}_j|$ 表示第 $j$ 个簇中数据点的个数。

为了求解等式 $(1)$ ，采用 $\text{EM}$ 方式来迭代更新 $\mathcal{S}$ 和 $\Omega$ ，即固定一个来优化另一个。这样的迭代优化有几个缺点：

首先，在欧式空间中寻找 $\text{k-means}$ 的最优解是NP难问题，即使对于两个簇的聚类。为了缓解NP难问题，一些 $\text{k-means}$ 的变体被提出，例如参数方法 $\text{Fuzzy c-means}$ 。然而，这些方法对超参数非常敏感且非常难以调优。

其次，标准 $\text{k-means}$ 在每次迭代中都需要在整个数据集上计算簇中心。当数据以流式呈现时，那么在大规模数据和在线聚类场景中都无法使用。更准确地说，虽然能够将新数据分配至最近的簇，但无法进一步更新簇中心，除非在所有数据上再重新跑整个算法。

最后，标准 $\text{k-means}$ 在固定的输入上执行，并不能辅助表示学习。深度学习的成功，很大程度上依赖端到端的学习，一个即插即用的神经聚类模块非常值得期待。在提出的方法 $\text{TELL}$ 中，聚类层能够仅执行聚类，也可以帮助网络以端到端的方式学习有益于聚类的表示。

三、聚类算法 $\text{TELL}$

1. $\text{k-means}$ 的神经网络实现

为了克服标准 $\text{k-means}$ 的缺点，通过重写等式 $\text{(1)}$ 将目标函数重写为神经层
$\text{min}\sum_{i=1}^n\sum_{j=1}^k\mathcal{I}_j(\textbf{X}_i)\parallel\textbf{X}_i-\Omega_j\parallel_2^2 \tag{3}$
其中， $\mathcal{I}_j$ 表示样本 $\textbf{X}_i$ 是否属于簇 $\Omega_j$ 。

等式 $(3)$ 的右半部分可以被扩展为
$\parallel\textbf{X}_i-\Omega_j\parallel_2^2=\parallel\textbf{X}_i\parallel_2^2-2\Omega_j^\top\textbf{X}_i+\parallel\Omega_j\parallel_2^2\tag{4}$
然后定义
$\textbf{W}_j=2\Omega_j,\quad\textbf{b}_j=-\parallel\Omega_j\parallel_2^2,\quad\parallel\textbf{X}_i\parallel_2^2=\beta_i\geq0\tag{5}$
其中， $\textbf{W}_j$ 是矩阵 $\textbf{W}$ 的第 $j$ 列， $\textbf{b}_j$ 表示向量 $\textbf{b}$ 的第 $j$ 个分量， $\beta_i$ 是一个对应于数据点 $\textbf{X}_i$ 长度的非负常数。

根据上面的公式，可以等价地将数据点 $\textbf{X}_i$ 和簇中心 $\Omega_j$ 的距离重写为
$\parallel\textbf{X}_i-\Omega_j\parallel_2^2=\beta_i-\textbf{W}_j^\top\textbf{X}_i-\textbf{b}_j\tag{6}$
对于给定的temperature参数 $\tau$ ，放松类别变量 $\mathcal{I}_j(\textbf{X}_i)$ 为
$\mathcal{I}_j(\textbf{X}_i)=\frac{\text{exp}(-\parallel\textbf{X}_i-\Omega_j\parallel_2^2/\tau)}{\sum_k\text{exp}(-\parallel\textbf{X}_i-\Omega_k\parallel_2^2/\tau))} \tag{7}$
事实上，上面关于 $\mathcal{I}_j(\textbf{X}_i)$ 的定义将其看作 $\textbf{X}_i$ 在第 $j$ 个簇的注意力。

合并等式 $(6)$ 和等式 $(7)$ ， $\mathcal{I}_j(\textbf{X}_i)$ 能够被提出的神经层来计算
$\mathcal{I}_j(\textbf{X}_i)=\frac{\text{exp}((\textbf{W}_j^\top\textbf{X}_i+\textbf{b}_j-\beta_i)/\tau)}{\sum_k\text{exp}((\textbf{W}_k^\top\textbf{X}_i+\textbf{b}_k-\beta_i)/\tau)}\tag{8}$
连续类别变量 $\mathcal{I}_j(\textbf{X}_i)$ 可以使用任何规范化函数来计算，包括但不限于 $\text{softmax}$ 。为了避免对temperature参数进行大量的调整，本文实现时采用了替代方案，通过简单地保留 $\mathcal{I}_j(\textbf{X}_i)$ 的最大分量。当 $\tau$ 趋于0时，其与标准 $\text{k-means}$ 保持一致。

2. 解耦网络权重和偏差

为了避免复杂数学符号带来的混淆，不失一般性地，在下面的分析中仅考虑一个样本 $\textbf{x}$ 的例子。在这个例子中， $\text{TELL}$ 的目标函数能够被形式化为
$\mathcal{L}=\sum_j\mathcal{L}_j=\sum_j\mathcal{I}_j(-\textbf{W}_j^\top\textbf{x}-\textbf{b}_j+\beta)\tag{9}$
其中， $\mathcal{I}_j$ 是 $\mathcal{I}_j(\textbf{x})$ 的简写。

虽然根据等式 $(5)$ 的定义来看 $\textbf{W}$ 和 $\textbf{b}$ 是天然耦合的，即 $\textbf{b}_j=-\frac{\parallel\textbf{W}_j\parallel_2^2}{4}$ ，但是作者从理论上证明了训练过程中 $\textbf{W}$ 和 $\textbf{b}$ 是应该被解耦的。换句话说， $\textbf{W}$ 和 $\textbf{b}$ 应该被独立优化并且最终的簇中心 $\Omega^*$ 通过 $\Omega^*=\frac{1}{2}\textbf{W}^*$ 来获得。

证明解耦 $\textbf{W}$ 和 $\textbf{b}$ 的必要性，需要将等式 $(9)$ 重写为
$\begin{aligned} \mathcal{L}&=-\sum_j\frac{\text{exp}((\textbf{b}_j+\textbf{W}_j^\top\textbf{x}-\beta)/\tau)(\textbf{b}_j+\textbf{W}_j^\top\textbf{x}-\beta)}{\sum_k\text{exp}((\textbf{b}_k+\textbf{W}_k^\top\textbf{x}-\beta)/\tau)} \\ &=-\sum_j\frac{\text{exp}(\textbf{z}_j/\tau)}{\sum_k\text{exp}(\textbf{z}_k/\tau)}\textbf{z}_j\\ &=-\sum_j f(\textbf{z}_j) \end{aligned}\tag{10}$
其中， $\textbf{z}_j=(-\frac{\parallel\textbf{W}_j\parallel_2^2}{4}+\textbf{W}_j^\top\textbf{x}-\beta)$ 。

相应地，目标损失函数变为
$\text{max}\;\sum_j f(\textbf{z}_j) \\ \text{s.t.}\quad\textbf{z}_j=-\frac{\parallel\textbf{W}_j\parallel_2^2}{4}+\textbf{W}_j^\top\textbf{x}-\beta \tag{11}$
可以看到，等式当 $\textbf{W}$ 和 $\textbf{b}$ 耦合时，即 $\textbf{b}_j=-\frac{\parallel\textbf{W}_j\parallel_2^2}{4}$ ，等式 $(11)$ 等价于等式 $(3)$ 。当 $\textbf{z}=\infty$ 时，等式 $(11)$ 在边界 $\textbf{z}_1=\textbf{z}_2=\dots$ 获得最优值 $f(\textbf{z})=\infty$ 。存在一个 $\textbf{z}^*$ 使 $\textbf{z}_j=\textbf{z}^*$ 且 $f(\textbf{z}^*)$ 达到最优值。我们总能找到 $\textbf{W}_j$ 和 $\textbf{b}_j$ 使得 $\textbf{b}_j+\textbf{W}_j^\top\textbf{x}-\beta=\textbf{z}^*$ ，而不必保证 $\textbf{W}_j$ 和 $\textbf{b}_j$ 满足 $-\frac{\parallel\textbf{W}_j\parallel_2^2}{4}+\textbf{W}_j^\top\textbf{x}-\beta=\textbf{z}^*$ 。虽然上面的分析是基于单个样本的，结论仍然适用于多个样本，因为它们彼此独立。从某种意义上，我们必须在训练中解耦 $\textbf{W}_j$ 和 $\textbf{b}_j$ 来避免平凡解。

3. 规范化聚类层的权重和梯度

请添加图片描述

上一小节，我们展示了解耦 $\textbf{W}$ 和 $\textbf{b}$ 来阻止网络退化为平凡解的必要性。然而，我们进一步发现解耦 $\textbf{W}$ 和 $\textbf{b}$ 并直接优化它们将导致发散和训练不稳定。为了解决这个问题，我们提出规范化聚类层的权重和它的梯度来实现稳定训练，如上图所示。

具体来说，当 $\textbf{W}$ 和 $\textbf{b}$ 被解耦时，最小化等式 $(9)$ 的损失函数 $\sum_j\mathcal{I}_j(-\textbf{W}_j^\top\textbf{x}-\textbf{b}_j+\beta)$ 将导致 $\textbf{W}_j^\top$ 和 $\textbf{b}_j$ 为正无穷，如上图(a)所示。在这个例子中，聚类层的优化永远都不会收敛。为了解决这个问题，作者提出了同时规范化聚类层的权重和偏差。实际上，作者采用了更直接的方法来簇中心 $\Omega_j,j\in[1,k]$ 规范化长度为1，即 $\Omega_j=\Omega_j/\parallel\Omega_j\parallel$ 。因此，为了保持欧式距离的有效性，数据点也被规范化为具有单位长度，即 $\beta=1$ 。从这个意义上来说， $\textbf{W}_j$ 的长度为2且 $\textbf{b}_j$ 是个常数。因此，等式 $(9)$ 的损失函数可以重写为
$\mathcal{L}=\sum_j\mathcal{L}_j=\sum_j\mathcal{I}_j(2-\textbf{W}_j^\top\textbf{x}) \tag{12}$
在实践中，使用 $\text{SGD}$ 来优化 $\textbf{W}_j$ ，在每次更新后都需要重新对其进行规范化。然而，如上图(b)所示，当梯度远大于 $\textbf{W}_j$ 的长度，在每次更新后 $\textbf{W}_j$ 的变化会特别大。使用 $\text{MNIST}$ 数据集作为例子，一开始 $\textbf{W}_{old}$ 可能对应数字"3"的簇中心。然而，当梯度太大时，经过优化后 $\textbf{W}_{new}$ 可能迁移至数字"5"。换句话说，在每次迭代中 $\textbf{W}_j$ 的内在语义信息都可能不同，这将导致不稳定的优化并且导致网络很难收敛。

4. 用于聚类和表示学习的端到端训练

请添加图片描述

基于上面的讨论，通过在神经层上使用下面的可微分损失函数来迁移标准的 $\text{k-means}$ 。
$\mathcal{L}=\sum_{i,j}\mathcal{I}_j(\textbf{X}_i)(2-\textbf{W}_j^\top\textbf{X}_i)\tag{13}$
相比于标准 $\text{k-means}$ ， $\text{TELL}$ 的主要优势是即插即用，即能够插入仍然神经网络里利用深度表示改善聚类。为了这个目的，不直接在原始特征上执行聚类，而是使用最小化重构误差的自编码器来抽取判别性特征 $\textbf{h}=\{\textbf{h}_1,\textbf{h}_2,\dots\}$ 。
$\textbf{h}_i=f(\textbf{X}_i) \\ \hat{\textbf{X}}_i= g(\textbf{h}_i) \\ \mathcal{L}_{rec}=\sum_{i}\parallel\textbf{X}_i-\hat{\textbf{X}}_i\parallel_2^2 \tag{14}$
其中， $f(\cdot)$ 和 $g(\cdot)$ 表示编码器和解码器， $\textbf{h}_i$ 被规范化为单位长度。在等式 $(13)$ 中使用 $\textbf{h}_i$ 替换 $\textbf{X}_i$ ， $\text{TELL}$ 的整体损失合并了重构损失和聚类损失
$\begin{aligned} \mathcal{L}&=\mathcal{L}_{rec}+\lambda\mathcal{L}_{clu} \\ &=\sum_i\parallel\textbf{X}_i-g(f(\textbf{X}_i))\parallel_2^2+\lambda\sum_{i,j}\mathcal{I}_j(\textbf{X}_i)(2-\textbf{W}_j^\top f(\textbf{X}_i)) \end{aligned} \tag{15}$
其中， $\lambda=0.01$ 。

可以看出，重构损失函数被用于同时优化编码器 $f(\cdot)$ 和解码器 $g(\cdot)$ 。对于聚类损失函数，已经证明其可以优化聚类层权重 $\textbf{W}_j$ 。这里，为了进一步改善特征的表达能力，也使用聚类损失函数优化编码器 $f(\cdot)$ 来特征拉近至对应的簇中心。实践中，为了稳定的训练，等式 $(15)$ 右侧被用于交替优化 $\textbf{W}$ 和 $f(\cdot)$ 。整体的端到端训练框架图如上图所示。

四、 $\text{TELL}$ 的解释性

请添加图片描述

虽然近些年可解释性AI（ $\text{XAI}$ ）实现了显著的进步，但是文献中对于" $\text{explainability}$ “和” $\text{interpretability}$ "的误用是达成共识的一个障碍。简单来说， $\text{explainability}$ 是指通过各种方法进行事后归因解释来增强对模型的理解，例如： $\text{text explanations}$ 、 $\text{visual explanations}$ 、 $\text{explanations by simplification}$ 和 $\text{feature relevance explanations}$ 技术。不同于 $\text{explanations}$ ， $\text{interpretability}$ 植根于模型本身的设计，其非常值得期待但十分有挑战。 $\text{interpretability}$ 也表达透明性，其表示模型的可分解性和算法的透明性。下面将展示 $\text{TELL}$ 具有两种可解释特征。

$\text{TELL}$ 用于模型可分解性，其意味着解释聚类层的每个部分是可行的。换句话说，聚类层的输入、权重参数、激活函数和损失函数都是可解释的。具体来说，聚类层的输入对应给定的数据点，权重矩阵 $\textbf{W}$ 是簇中心 $\Omega$ ， $\text{argmax}$ 激活函数被用于实现数据点至最近簇的分配，损失函数则是从标准 $\text{k-means}$ 推导出，如等式 $(\text{4-5})$ 。为了加强可解释性的主张，作者还通过可视化从 $\Omega$ 重构的簇中心来作事后解释。如上图所示，重构的簇中心与 $\text{MNIST}$ 的数字完全对应，说明 $\text{TELL}$ 确实捕获到了内在的语义。

$\text{TELL}$ 也具有算法透明性，因为其动态行为可以从数学上进行推理，从而允许用户理解模型的行为。具体来说，作者不仅在理论上提供了收敛分析，而且展示了解耦 $\textbf{W}$ 和 $\textbf{b}$ 的必要性，以及规范化权重 $\textbf{W}$ 和梯度能够实现合适且稳定的优化。

请添加图片描述

此外，作者还从自然语言理解中流行的注意力机制来理解 $\text{TELL}$ 的工作方式。如上图所示， $\text{TELL}$ 的目标是学习一个划分簇中心的线性超平面 $\textbf{W}$ 。这个超平面能基于注意力将相似数据划分至相同的簇，并将不相似的数据划分至不同的簇。更具体的来说，通过等式 $(6)$ 学习超平面， $\text{TELL}$ 通过 $(2-\textbf{W}^\top\textbf{X}_i)$ 计算输入 $\textbf{X}_i$ 和簇中心 $\Omega$ 的不相似度。然后， $\text{TELL}$ 是基于 $\mathcal{I}(\textbf{X}_i)$ 的加权不相似度之和。直觉上，这个注意力机制的实现如上图所示，其决定了 $\textbf{X}_i$ 应该关注哪个簇中心。实际上，这里的注意力是簇分配。

五、收敛证明

在本小节，作者从理论上证明提出的损失函数 $\mathcal{L}$ 基于 $\text{SGD}$ 能够充分收敛。

为了便于展示，令 $\mathcal{L}^*$ 表示最优损失函数， $\mathcal{L}_t^*$ 表示在步骤 $t$ 是的最小损失函数， $\textbf{W}^*$ 则是对应于最优簇中心 $\Omega^*$ 的权重。这里考虑使用标准 $\text{SGD}$ 来优化网络
$\textbf{W}_{t+1}=\textbf{W}_t-\eta_t\nabla\mathcal{L}(\textbf{W}_t) \tag{16}$
其中， $\nabla\mathcal{L}(\textbf{W}_t)$ 表示 $\mathcal{L}$ 关于 $\textbf{W}_t$ 的梯度。下面，将 $\nabla\mathcal{L}(\textbf{W}_t)$ 缩写为 $\nabla\mathcal{L}_t$ 。

定义1: $\text{Lipschitz}$ 连续性

如果存在一个常数 $\epsilon>0$ ，对于所有的 $x_1,x_2\in\Omega$ 都有
$\parallel f(x_1)-f(x_2) \parallel\leq\epsilon\parallel x_1-x_2 \parallel \tag{17}$

则称函数 $f (x)$ 在集合 $\Omega$ 上是 $\text{Lipschitz}$ 连续的，其中 $\epsilon$ 被称为 $\text{Lipschitz}$ 常数。

$\text{TELL}$ 的损失函数 $\mathcal{L}$ 是 $\text{Lipschitz}$ 连续的， $\text{i.i.f. }\parallel\nabla\mathcal{L}_t\parallel\leq \epsilon$ 。换句话说，为了满足 $\text{Lipschitz}$ 连续性，需要证明 $\nabla\mathcal{L}_t/\tau$ 的上界是存在的。
定理1：存在 $\epsilon>0$ 使得 $\parallel\nabla\mathcal{L}_t\parallel\leq\epsilon$ ，其中 $\epsilon=\tau+2\tau\text{max}(\parallel\textbf{z}_i\parallel)$ 和 $\textbf{z}_i=\textbf{W}_i^\top\textbf{x}/\tau$ 。

定理1表明，当 $\parallel\textbf{z}_i\parallel$ 是有界的，提出的损失函数 $\mathcal{L}(\textbf{W})$ 将会有一个正实数 $\epsilon$ 的上界。事实上，对于任何真实世界中的数据集都存在 $\parallel\textbf{z}_i\parallel$ 的上界。此外，不失一般性地，由于可以规范化 $\textbf{x}$ 和 $\Omega_i$ 来满足 $\parallel\textbf{x}\parallel=\parallel\Omega_i\parallel=1$ ，这样 $\parallel\textbf{W}_i\parallel=2$ 就是边界。基于定理1，会有下面的定理2。
定理2：经过 $T$ 步骤后，总是能够发现足够解决最优值 $\mathcal{L}^*$ 的最优模型 $\mathcal{L}_T^*$ ，即
$\mathcal{L}_T^*-\mathcal{L}^*\leq\frac{\parallel\textbf{W}_1-\textbf{W}^*\parallel_F^2+\epsilon^2\sum_t^T\eta_t^2}{2\sum_{t=1}^T\eta_t} \tag{18}$
基于定理2可以推导出下面的两个引理。
引理1：对于固定大小的step(即 $\eta_t=\eta$ )且 $T\rightarrow\infty$ ，有
$\mathcal{L}_T^*-\mathcal{L}^*\rightarrow\frac{\eta\epsilon^2}{2}\tag{19}$
引理2：对于固定的step长度(即 $\eta_t=\eta/\nabla\mathcal{L}_t$ )且 $T\rightarrow\infty$ ，有
$\mathcal{L}_T^*-\mathcal{L}^*\rightarrow\frac{\eta\epsilon}{2}\tag{19}$