Transformer-Based Acoustic Modeling for Hybrid Speech Recognition

最新推荐文章于 2024-07-10 16:41:55 发布

pitaojun

最新推荐文章于 2024-07-10 16:41:55 发布

阅读量464

点赞数

分类专栏：语音识别asr 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/pitaojun/article/details/108560681

版权

对transformer based 的混合语音识别模型在不同位置编码方法、iterated loss条件下模型的最优配置、有限上下文条件下流式应用进行了讨论。在结合4-ngram 语言模型rescore，获得了19%-26%的效果提升。

hybrid architecture
将输入序列x1,…,xt经过声学encoder 编码为高级的向量表示z1,…,zt，然后根据这些高阶编码得到HMM 中的每一帧对于不同音素的后验状态转移矩阵，并可在这一过程中结合词表和一些语音模型。相对于端到端模型，可能整个过程可能是分开训练，但是根据作者的经验，在实际问题中这种框架的效果较好，并且可以结合一些外部的知识作为补充（personalized lexicon）.
Self-Attention and Multi-Head Attention
attention weights 的计算方法，对于多头注意力采用拼接的方式。为了流式的信号处理，对于右侧上下文信息只做部分attention, 其他被mask 负无穷。

关注

专栏目录