MoCha——单调块注意力模型
MoCha——单调块注意力模型
1.概述
加了soft attention的seq2seq模型,在很多领域取得了广泛的应用,例如机器翻译、词性标注等NLP任务,因为它们都可以看成是序列到序列的问题。但是对于语音问题,这个模型存在很明显的弊端:
时间复杂度很高: 因为对于soft attention的模型来说,decoder的每一个输出要计算encoder的每一个隐含状态的对应权重,所以时间复杂度为O(UT),其中U代表输出序列的长度,T代表输入序列的长度。对于语音任务来说,10ms的帧移就意味着1s的音频




