MoCha——单调块注意力模型

最新推荐文章于 2022-12-02 18:22:32 发布

常恒毅

最新推荐文章于 2022-12-02 18:22:32 发布

阅读量1.1k

点赞数 4

分类专栏：语音识别文章标签：深度学习语音识别人工智能

本文链接：https://blog.csdn.net/hengyi_chang/article/details/118035617

版权

MoCha——单调块注意力模型

1.概述

加了soft attention的seq2seq模型，在很多领域取得了广泛的应用，例如机器翻译、词性标注等NLP任务，因为它们都可以看成是序列到序列的问题。但是对于语音问题，这个模型存在很明显的弊端：

时间复杂度很高： 因为对于soft attention的模型来说，decoder的每一个输出要计算encoder的每一个隐含状态的对应权重，所以时间复杂度为O(UT)，其中U代表输出序列的长度，T代表输入序列的长度。对于语音任务来说，10ms的帧移就意味着1s的音频有100帧，随便读一段话可能就有成百上千帧的输入，这是非常耗时的。
做不到online：
同样因为计算soft-attention需要考虑encoder每一个隐含状态，所以要等到输入全部输入之后才能计算，因而无法做到实时解码。

不过与机器翻译等任务不同，语音识别和语音生成的任务中输入和输出是单调对齐的，换句话说输入和输出享有通同一个自然的时间顺序，不涉及局部的颠倒。于是，Raffel等人在2017年的研究成果表明，对于这种单调对齐的seq2seq的问题，上述的两种弊端可以得到缓解。Raffel引入了一种叫hard monotonic attention的注意力机制，实现了线性时间复杂度和online解码。

然而与soft attention相比，hard monotonic attention也限制了模型的表达性，因为soft attention理论可以学习任意方式的对齐，而这是单调对齐做不到的。实验结果也表明使用单调对齐的hard monotonic attention模型表现落后于soft attention。

所以，MoCha就这样应运而生，它不是摩卡咖啡，而是Monotonic Chunk Attention。该机制保留了hard monotonic attention线性时间复杂度和实时解码的优势，同时也允许软对齐。它是如何做到的呢，简要来说，它先确定一个滑动窗口，也就是所谓的chunk，然后在这个窗口里的几个时间步上做soft attention。窗口的移动是单调的（只能沿着时间从左向右），而窗口什么时候该滑动、滑动多少，是由模型自己决定的，或者说是学习得到的。
在这里插入图片描述

上图是一个形象的展示，纵轴代表decoder输出序列的顺序，横轴代表encoder输出的隐含状态序列，颜色代表概率，每一横行概率相加应该是1。从图中我们可以看出soft attention可以实现任意的对齐；hard monotonic attention每一步决定向右移动几步，当然也可以不移动；而MoCha移动的是一个固定长度的窗口，窗口内部实现了软注意力。

MoCha的论文中还介绍了它的反向传播训练方式，该训练方式可以直接应用于现有的seq2seq模型。实验表明，MoCha使得单调注意力模型赶上了软注意力模型的性能，代价是参数量和计算成本的适度增加。

下面我们将详细介绍这一模型的模型结构以及训练过程。

2.MoCha的定义

上一小节中谈到的三种模型，实际上是依次被提出的，hard monotonic attention的提出是为了解决soft attention存在的问题，但是牺牲了模型的准确度。MoCha的提出既保留了hard monotonic attention的优点，也弥补了它在准确度上的劣势。

所以我们这一小节，按照顺序，先来回顾一下soft attention，再来讲一下hard monotonic attention与soft attention的不同，最后再讲一下MoCha在前两者的基础上做了哪些改进。

2.1 Soft Attention

在这里插入图片描述

对于一个由RNN encoder和RNN deconder组成的seq2seq模型结构来说：
$x=\{x_1,x_2,...,x_T\}\\ h=\{h_1,h_2,...,h_T\}\\ s=\{s_1,s_2,...,s_U\}\\ y=\{y_1,y_2,...,y_U\}\\$
其中 $h$ 为encoder的隐含状态， $s$ 为decoder的隐含状态，T为输入序列的长度（在语音识别任务中就是帧数），U为输出序列的长度（在语音识别任务中是token的个数）。
$h_j=EncoderRNN(x_j,h_{j-1})\\ s_i=DecoderRNN(y_{i-1},s_{i-1},c_i)\\ y_i=Output(s_i,c_i)$
Attention可以就将其看做是一系列操作，经过这一系列操作之后Encoder的T个隐含状态 $h$ 就变成了U个context向量 $c$ 。这个 $c$ 就是将输入信息传给decoder的唯一通道。对于不同的attention实际上就是不同的操作，但是最终的效果就是将 $h$ 变成 $c$ 。

对于soft attention来说，对应的操作如下所示：
$e_{i,j}=Energy(h_j,s_{i-1})=v^\top tanh(W_hh_j+W_ss_{i-1}+b)\\ \alpha_{i,j}=\frac{\exp(e_{i,j})}{\sum_{k=1}^T{\exp(e_{i,k})}}\\ c_i=\sum_{j=1}^T{\alpha_{i,j}h_j}$
计算第 $i$ 个时间步的 $c_i$ 时候，首先对前一个时间步的 $s_{i-1}$ 计算和每一个 $h$ 的energy，然后经过softmax后得到当前时间步的输出对于每一个 $h$ 的权重系数 $\alpha$ ，然后加权相加，得到当前时间步的 $c_i$ ，这样decoder依次得到每一个 $c_i$ ，再结合前一步的隐含状态 $s_{i-1}$ 以及前一步的输出 $y_{i-1}$ 就可以得到当前时间步的输出 $y_i$ 。因为计算每一个 $c_i$ 的时候要考虑每一个 $h$ ，所以soft attention的时空复杂度是 $O (T U)$ 。

而且soft attention部分的计算无非是矩阵的乘法、加法、tanh激活函数，这些操作都是可以求导的，也就支持了反向传播。所以引入soft attention机制并不需要额外做什么事情便可以直接训练。

2.2 Hard Monotonic Attention

在hard monotonic attention中，我们依然来看一下，U个context向量 $c$ 是如何由T个隐含状态 $h$ 得到。首先对于decoder的第 $i$ 的时间步的输出来说，这种注意力机制从第 $i - 1$ 的时间步对齐的 $h$ 开始依次遍历每一个 $h$ ，而不是像soft attention一样从头开始。假设decoder第 $i - 1$ 个时间步对齐的 $h$ 的索引是 $t_{i-1}$ ，也就是说 $c_{i-1}$ 对应 $h_{t_{i-1}}$ ，那么计算 $c_i$ 的时候，我们对于所有的 $j=t_{i-1},t_{i-1}+1,...$ 依次计算 $e_{i,j}$ ，然后再通过一个sigmoid激活函数，计算出一个 $p_{i,j}$ ，它可以理解成“ $c_i$ 选择第 $h_j$

最低0.47元/天解锁文章

常恒毅

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
MoCha——单调块注意力模型

MoCha——单调块注意力模型1.概述加了soft attention的seq2seq模型，在很多领域取得了广泛的应用，例如机器翻译、词性标注等NLP任务，因为它们都可以看成是序列到序列的问题。但是对于语音问题，这个模型存在很明显的弊端：时间复杂度很高：因为对于soft attention的模型来说，decoder的每一个输出要计算encoder的每一个隐含状态的对应权重，所以时间复杂度为O(UT)，其中U代表输出序列的长度，T代表输入序列的长度。对于语音任务来说，10ms的帧移就意味着1s的音频
复制链接

扫一扫