上一篇文章介绍了Attention机制在语音识别和MNT中的应用,由于上篇文章篇幅较长,所以分出本章对Attention进行继续介绍。
接下里会介绍2篇文章。
第一篇为William Chan 等人在2015年8月份提出的比较经典的Listen, Attend and Spell[1],
其中Encoder RNN 别名为listener,Decoder RNN别名为speller
listener具体架构为一个金字塔RNN结构,用来把低维的语音信号转成高维的特征,其中金字塔RNN加速了训练收敛的速度。
speller为RNN结构,借助于Attention机制,把高维的特征转成对应的文本句子。其架构如下所示:
其输入x为40-dimensional log-mel filter bank features,输出y为英文字符和标点,空格等字符。