【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图-CSDN博客

本文链接：https://blog.csdn.net/bqw18744018044/article/details/123609399

CDAC+：通过深度自适应聚类发现新意图 《Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement》

论文地址：https://arxiv.org/pdf/1911.08891.pdf

相关博客：
【自然语言处理】【聚类】基于神经网络的聚类算法DEC
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL
【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘
 【自然语言处理】【聚类】DeepAligned：使用深度对齐聚类发现新意图
 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图
 【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法
 【计算机视觉】【聚类】SwAV：基于对比簇分配的无监督视觉特征学习
 【计算机视觉】【聚类】CC：对比聚类
 【计算机视觉】【聚类】SeLa：同时进行聚类和表示学习的自标注算法
 【自然语言处理】【聚类】ECIC：通过迭代分类增强短文本聚类
 【自然语言处理】【聚类】TELL：可解释神经聚类

一、简介

意图发现

发现用户未被满足的新意图是对话系统中的重要任务。通过将相似语料聚类成相同的簇，可以识别出新的商业机会，并决定系统未来的发展方向。由于许多对话数据是未标注的，一个好的聚类算法能够帮助自动发现合理的分类，识别潜在的用户需求。

但是，实现这样的聚类算法面临两个挑战。
- 精准估计新意图的数量十分困难；
- 聚类的结果很难符合人的期望。例如，假设需要根据用户遇到的技术问题来划分数据，最终可能会按问题的类型进行聚类；
现有方法
- $\text{Hakkani-Tur}$ 等人使用语义解决将用户的语料分解成图，然后基于频率和熵进行剪枝；
- $\text{Padmasundari}$ 通过集成方法来合并不同聚类算法和表示方法的结果；
- $\text{AutoDial}$ 抽取所有类型的特征(例如 $\text{POS}$ 标记和关键词)，然后使用层次聚类来聚合句子；
- $\text{Haponchyk}$ 使用预定义的结构化输出来指导聚类过程；
但是，这些方法都需要密集的特征工程。此外，这些方法以pipeline的方式执行表示学习和簇分配，可能导致较差的效果。
解决方案

实际场景中，存在着有限的标注数据和大量的无标注数据，且预先不知道所有的意图类别。此外，训练数据存在噪音，即无标注数据中既有已知意图，也有未知意图。关键是如何利用标注数据来有效地改进聚类效果。

为了解决这些问题，本文提出了一种端到端的聚类方法 $\text{CDAC+}$ ，在聚类的过程中优化意图的向量表示。此外，还利用预训练语言模型 $\text{BERT}$ 和标注数据来帮助聚类过程。具体来说，整个方法划分为三个步骤。
- 首先，从 $\text{BERT}$ 获取意图的向量表示；(意图表示)
- 其次，构造成对分类任务来作为聚类的替代。使用意图表示来计算句子对的相似矩阵，然后使用相似与否的标签来训练网络；(成对分类)
- 最后，使用辅助 $t$ 分布和 $\text{KL}$ 散度来鼓励模型从高置信度分配中学习；(簇细化)

二、意图表示

使用预训练语言模型 $\text{BERT}$ 来获取意图向量表示。给定语料库中的第 $i$ 个句子 $x_i$ ，从 $\text{BERT}$ 的最后隐藏层获取所有token的嵌入向量 $[C,T_1,\dots,T_N]\in\mathbb{R}^{(N+1)\times H}$ 。利用 $\text{mean-pooling}$ 来获得平均表示 $e_i\in\mathbb{R}^H$ ：
$e_i=\text{mean-pooling}([C,T_1,\dots,T_N])$
其中， $N$ 是序列长度， $H$ 是隐藏层大小。然后，将 $e_i$ 送入聚类层 $g$ ，并获得意图的向量表示 $I_i\in\mathbb{R}^k$ ：
$g(e_i)=I_i=W_2(\text{Dropout}(\text{tanh}(W_1 e_i)))$
其中， $W_1\in\mathbb{R}^{H\times H}$ 且 $W_2\in\mathbb{R}^{H\times k}$ 是可学习参数， $k$ 是簇数量。

三、成对分类

聚类的本质是衡量样本间的相似度。受模型 $\text{DAC}$ 的启发，本文将聚类问题重新为成对分类问题。通过学习句子是否相似，模型能够学习到有益于聚类的意图表示。使用意图向量表示 $I$ 来计算相似矩阵 $S$
$S_{ij}=\frac{I_i I_j^T}{\parallel I_i \parallel\parallel I_j \parallel}$
其中， $\parallel \cdot \parallel$ 是 $\text{L2}$ 范数，并且 $i,j\in\{1,\dots,n\}$ ；batch size为n； $S_{ij}$ 表示句子 $x_i$ 和 $x_j$ 的相似度。然后，迭代地使用监督和自监督步骤来优化模型。

1. 监督步骤

给定少量的标注数据，构造标签矩阵 $\text{R}$
$R_{ij}:= \begin{cases} 1,\;\text{if}\quad y_i=y_j \\ 0,\;\text{if}\quad y_i\neq y_j, \end{cases}$
其中， $i,j\in\{1,\dots,n\}$ 。使用相似矩阵 $S$ 和标签矩阵 $R$ 来计算损失函数 $\mathcal{L}_{sim}$ ：
$\mathcal{L}_{sim}(R_{ij},S_{ij})=-R_{ij}\text{log}(S_{ij})-(1-R_{ij})\text{log}(1-S_{ij})$
这里将标注数据作为先验，并使用它指导聚类过程。

2. 自监督步骤

通过相似矩阵 $S$ 上应用动态阈值，获取自标注矩阵 $\hat{R}$
$\hat{R}_{ij}:= \begin{cases} 1,\text{if}\quad S_{ij}>u(\lambda)\;\text{or}\;y_i=y_j \\ 0,\text{if}\quad S_{ij}<l(\lambda)\;\text{or}\;y_i\neq y_j \\ \text{Not selected, otherwise} \end{cases}$
其中， $i,j\in\{1,\dots,n\}$ 。 $u(\lambda)$ 是动态阈值上限， $l(\lambda)$ 是动态阈值下限，共同用来决定句子对是否相似。那些介于 $u(\lambda)$ 和 $l(\lambda)$ 的句子对不参与训练过程。在本步骤中，混合了标注和未标注数据来训练模型。

此外，添加 $u(\lambda)-l(\lambda)$ 作为样本数量的惩罚项
$\mathop{\text{min}}_{\lambda}\;\textbf{E}(\lambda)=u(\lambda)-l(\lambda)$
其中， $\lambda$ 是一个控制样本选择的自适应参数，并且迭代更新 $\lambda$ 的值
$\lambda:=\lambda-\eta\cdot\frac{\partial\textbf{E}(\lambda)}{\partial\lambda}$
其中， $\eta$ 是 $\lambda$ 的学习率。由于 $u(\lambda)\propto -\lambda$ 且 $l(\lambda)\propto\lambda$ ，可以在训练过程中增加 $\lambda$ 来降低 $u(\lambda)$ 和提高 $l(\lambda)$ 。这方便逐步地选择更多句子来参加训练过程。这当然也可能在 $\hat{R}$ 中引入更多的噪音。

最后，使用相似度矩阵 $S$ 和自标注矩阵 $\hat{R}$ 来计算损失函数 $\hat{\mathcal{L}}_{sim}$ ：
$\hat{\mathcal{L}}_{sim}(\hat{R}_{ij},S_{ij})=-\hat{R}_{ij}\text{log}(S_{ij})-(1-\hat{R}_{ij})\text{log}(1-S_{ij})$
随着阈值的改变，模型会从学习简单分类句子到学习难分类句子对，迭代地获取有益于聚类的表示。当 $u(\lambda)\leq l(\lambda)$ 时，停止迭代并移动到细化阶段。

四、簇细化

这部分的逻辑与模型DEC完全相同。

通过期望最大化方法迭代的细化簇分配，鼓励模型来学习高置信度的分配。首先，给定初始化的簇中心 $U\in\mathbb{R}^{k\times k}$ ，计算意图向量表示和簇中心的软分配。具体来说，使用学生 $t$ 分布作为评估意图向量表示 $I_i$ 和簇中心 $U_j$ 的相似度
$Q_{ij}=\frac{(1+\parallel I_i-U_j \parallel^2)^{-1}}{\sum_{j'}(1+\parallel I_i-U_j \parallel^2)^{-1}}$
其中， $Q_{ij}$ 表示样本 $i$ 属于簇 $j$ 的概率。

其次，使用辅助目标分布 $P$ 来强迫模型来学习高置信度分配，从而细化了模型参数和簇中心。定义目标分布 $P$ 如下：
$P_{ij}=\frac{Q_{ij}^2/f_i}{\sum_{j'}Q_{ij'}^2/f_{j'}}$
其中 $f_i=\sum_{i}Q_{ij}$ 表示软簇频率。

最后，最小化 $P$ 和 $Q$ 的 $\text{KLD}$ 损失函数
$\mathcal{L}_{\text{KLD}}=KL(P\parallel Q)=\sum_i\sum_j P_{ij}\text{log}\frac{P_{ij}}{Q_{ij}}$
然后，重复上面的两个步骤直至在两次连续迭代中，簇分配的改变小于 $\delta_{lable}\%$ 。