原文:
ACL2020www.aclweb.orgAbstract
用户意图分类在对话系统中起着至关重要的作用。由于在许多现实场景中,用户意图可能会随着时间的推移而频繁地发生变化,因此未知意图检测已成为一个基本问题,而这项研究才刚刚开始。作者提出了一种用于未知意图检测的语义增强高斯混合模型(SEG)。特别地,作者用高斯混合分布对话语嵌入进行建模,并将动态的类别语义信息注入到高斯均值中,使得学习更多的类集中嵌入,有助于后续离群点检测。结合基于密度的离群点检测算法,SEG在两种语言的三个面向任务的对话数据集上实现了对未知意图检测的有竞争力的结果。在此基础上,作者建议将SEG作为未知意图识别器集成到现有的零射击意图分类模型中,以提高其性能。对一种最新的方法ReCapsNet的实例研究表明,SEG可以显著提高分类性能。
Introduction
对于未知意图检测,相关研究仍然较少。论文《Deep unknown intent detection with margin loss》(2019) 提出了large margin cosine loss (LMCL) 来学习深度判别特征,然后将其输入基于密度的离群值检测算法,以识别未知意图。
尽管此方法在某些基准数据集上表现良好,但有两个局限性。 (1)在训练中,LMCL忽略了类别标签的先验知识,而事实证明,在嵌入空间中捕获的标签相关性可以提高预测性能。 (2)LMCL计算特征空间中嵌入之间的余弦距离,并以softmax交叉熵损失进行训练,使得每个类的嵌入分布又长又窄,可能不太适合应用基于密度的异常检测算法来检测未知意图。
在本文中,作者旨在解决这些局限性,并针对未知意图检测提出一种新型的语义增强型高斯混合模型(SEG)。 与softmax函数相反,高斯混合模型使得嵌入在特征空间中形成球形密集簇,这对于离群值检测可能更为理想,尤其是在使用基于密度的离群值检测算法时。 此外,作者建议通过类别标签或描述的嵌入作为类别簇的中心,将类别标签的语义信息注入到高斯混合分布中。 这使SEG可以学习更多的类集中的嵌入内容,从而有助于下游离群值检测。
Approach
Feature Extraction
首先,作者通过双向LSTM+自注意力机制提取特征
Semantic-Enhanced Large Margin Gaussian Mixture Loss
作者用高斯混合模型来建模每个类别的样本分布,
z的概率密度函数:
其中
为高斯分布。
单个样本的后验概率为
交叉熵损失为
单个样本
该损失增强为LMCL的形式为
----------------------------------
为了进一步增强语义信息,作者提出使用之前的特征抽取编码器对意图类别信息进行编码,
并且作者提出一个额外的loss来拉近每个样本和类别语义表示的距离:
综上所述,总的loss表示为:
对于OOD检测,作者则直接使用了LOF离群检测算法。