A Novel Bi-directional Interrelated Model for Joint Intent Detection and Slot Filling
只讲解不给代码的人,都是耍流氓
一、介绍
该论文中提出了一个基于Attention的联合模型,能够加强Slot Filling 和 Intent Detection 之间的有向连接,当时在ATIS数据集上取得了SOTA的效果。
注意这里是有向连接,因此也是有双向连接。因为SF和ID之间是存在相互依赖关系,单向依赖和双向依赖都能够加强信息建模。
二、模型
2.1 整合上下文信息
在SF任务中,每个token
的标签不仅与单词具体语法和词法信息有关,也与文本的上下文有关。与上下文有关
不仅在这里有重要的应用,在其他任务中基本上都有其应用,毕竟根据文本判定其含义才是语言的精髓。
而如何根据上下文获取有效信息呢?注意力机制是一个非常好的建模工具。
2.2 Slot Attention
在SF模块中,上下文信息获取的
如图所示,左边是一个BiLSTM
模型,用于在输入文本中提取特征。而Attention机制与Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling一致,具体细节请看此论文。
2.3 Intent Attention
IntentDetection
的上下文向量的计算方法与SF
是一致的,那也就说明 shape(
) = shape(
)。虽然获取方法是一致的,可使用的渠道不一样,为两个独立的注意力机制,提取的特征是不一样的。
三、SF-ID网络架构
前面提到过SF subnet
和ID subnet
自网络是有向连接,也就会存在SF-First
和ID-First
这两种模式。前一个网络会将输出的隐藏层信息传递给后一层,这样就会建立一种依赖性关系。
3.1 SF-First
在这种模式中,SF subnet
会先执行,过程如下:
- 在
SF subnet
中将和作为输入,生成加强版的向量, - 使用
CRF
和来做序列标注任务,完成槽填充这个自任务。