论文：Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

mili-coding

已于 2023-07-21 14:01:00 修改

阅读量225

点赞数

分类专栏： nlp论文阅读文章标签： nlp rnn lstm

于 2023-07-13 21:50:35 首次发布

本文链接：https://blog.csdn.net/qq_45730823/article/details/131711822

版权

nlp论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling基于注意力机制的循环神经网络模型应用于联合意图检测和槽填充

摘要

基于注意力机制的encoder-decoder神经网络模型广泛应用于机器翻译和语音识别，

作者提出了基于注意力机制的神经网络模型用于联合意图识别和槽位填充。

在槽位填充中，输入文本和输出标签的对应是明确的，不像在机器翻译和语音识别中，

探讨了将对齐信息纳入encoder-decoder框架中，并引入注意力机制，为意图分类和槽标签预测提供了额外的信息。

关键词：语音理解，槽填充，意图检测，循环神经网络，注意力机制

介绍

口语理解系统SLU是口语对话系统中的一个重要部分。SLU包括下面两个任务

子任务	任务内容	可以看作	常用方法
意图识别	识别说话人的意图	语义分类任务	支持向量机，深度神经网络
槽位填充	从自然语言中提取语义成分	序列标注任务	最大熵隐马尔可夫模型，条件随机场，循环神经网络

作者提出的联合模型简化了SLU系统，因为两个任务只需要一个模型进行训练和微调

介绍encoder-decoder模型：
$\xrightarrow{编码} 密集向量 \xrightarrow {解码}输出序列$
注意力机制的引入可以使得架构同时学习对齐和解码

基于注意力机制的encoder-decoder在没有给定对齐信息的情况下映射不同长度的序列

在这里插入图片描述

在槽位填充中，对齐是明确的

作者的目标：

在encoder-decoder模型中更好的利用槽位填充中的对齐信息
基于对齐的RNN槽位填充能否通过encoder-decoder模型中引入注意力机制进一步改进
融合两种方法

提出的方法

对于槽位填充建立有对齐输入的encoder-decoder模型

编码器：采用双向的RNN

使用LSTM作为基本的循环网络单元

（为什么要适用LSTM？LSTM相比于传统的RNN有哪些优势？）

传统的RNN模型图： $s_t = f(x_t,s_{t-1})$

在这里插入图片描述

LSTM模型图，LSTM增加了一条新的时间链c，记录long-term-memory，s链代表短期记忆short-time-memory

在这里插入图片描述

举例：昨天的记忆是 $s_{t-1}$ ，今天的记忆是 $s_t$ ，昨天的日记本是 $c_{t-1}$ ，今天的日记本是 $c_t$

要从昨天记忆更新到今天，首先需要对长期记忆链条c做修改：

$f_1$ 函数根据昨天记忆 $s_{t-1}$ 和今天输入 $x_t$ 对昨天的日记本是 $c_{t-1}$ 进行删除操作
$f_2$ 函数根据昨天记忆 $s_{t-1}$ 和今天输入 $x_t$ 对昨天的日记本是 $c_{t-1}$ 进行添加操作

按照上图中的顺序更新 $c_t$ ，然后根据昨天的记忆 $s_{t-1}$ ，今天的日记 $c_t$ ，今天的输入 $x_t$ 来更新今天的记忆 $s_t$
$s_t = f(s_{t-1},c_t,x_t)$

双向RNN编码器

前向RNN按原顺序读取单词序列，在每个时间步长产生一个隐藏状态 $fh_i$

反向RNN按相反的顺序读取单词序列，产生隐藏状态序列 $(bh_T,\cdots,bh_1)$

每个时间步长的最终隐藏状态 $h_i = [fh_i,bh_i]$

使用LSTM作为RNN的基本单元

解码步骤计算
$s_i = f(s_{i-1},y_{i-1},h_i,c_i)$

$s_i$ ：解码器状态
$s_{i-1}$ ：前一个解码器状态
$y_{i-1}$ ：前一个发出的标签
$h_i$ ：对齐的编码器隐藏状态
$c_i$ ：上下文向量

实现意图检测和槽位填充的联合建模

为意图检测任务添加一个额外的解码器，编码器与槽位填充任务共享

意图解码器只生成一个单一的输出，即句子的意图类分布，因此不需要对齐

训练时两个解码器的代价反向传播到编码器，所以可以完成作者的目标1

在这里插入图片描述

a图有注意力机制，没有对齐，

b图有对齐，没有注意力机制

c图既有对齐，又有注意力机制

基于注意力机制的RNN模型

在用于序列标注的双向RNN中，每个时间步长的隐藏状态都携带着整个序列的信息，但信息可能会在正向和反向传播过程中逐渐丢失。

与使用基于注意力机制的encoder-decoder模型相比，基于注意力机制的RNN模型计算效率更高，

基于注意力机制的encoder-decoder模型读取输入序列两次，而基于注意力的RNN模型只读输入序列一次

mili-coding

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
论文：Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

口语理解系统SLU是口语对话系统中的一个重要部分。SLU包括下面两个任务子任务任务内容可以看作常用方法意图识别识别说话人的意图语义分类任务支持向量机，深度神经网络槽位填充从自然语言中提取语义成分序列标注任务最大熵隐马尔可夫模型，条件随机场，循环神经网络作者提出的联合模型简化了SLU系统，因为两个任务只需要一个模型进行训练和微调输入序列→编码密集向量→解码输出序列输入序列 \xrightarrow{编码} 密集向量 \xrightarrow {解码}输出序列输入序列。
复制链接

扫一扫