Transformer-Based Acoustic Modeling for Hybrid Speech Recognition
1.论文摘要
对transformer based 的混合语音识别模型在不同位置编码方法、iterated loss条件下模型的最优配置、有限上下文条件下流式应用进行了讨论。在结合4-ngram 语言模型rescore, 获得了19%-26%的效果提升。
2. 背景介绍
-
hybrid architecture
将输入序列x1,…,xt经过声学encoder 编码为高级的向量表示z1,…,zt,然后根据这些高阶编码得到HMM 中的每一帧对于不同音素的后验状态转移矩阵,并可在这一过程中结合词表和一些语音模型。相对于端到端模型,可能整个过程可能是分开训练,但是根据作者的经验,在实际问题中这种框架的效果较好,并且可以结合一些外部的知识作为补充(personalized lexicon). -
Self-Attention and Multi-Head Attention
attention weights 的计算方法,对于多头注意力采用拼接的方式。为了流式的信号处理,对于右侧上下文信息只做部分attention, 其他被mask 负无穷。