李老师讲的第一个语音模型为LAS。其中L为Listen代表模型的Encoder模块,S为Spell代表模型的Decoder,Attend代表Attention,指模型使用了注意力机制。
Listen
Listen模块即模型的encoder模块,这个模块以一个由向量组成的序列特征(如MFCC)作为输入,输出一串相同长度的向量序列。
这一模块的目标:
1.把不同的speaker的说相同的词语句子的差异和语音数据中的噪声等移除。
2.提取语音中与具体内容相关的信息。
此模块可以使用CNN或RNN。
关于Self-Attention的教学链接:https://www.youtube.com/watch?v=ugWDIIOHtPA
通常要先对输入序列做down-sampling,因为输入序列中一秒就有非常多个向量,相邻的向量信息重合度高。训练效率低。
主要做法为Listen模块在多层RNN或CNN后通过相关技术得到比输入序列短的特征向量组成的序列。CNN: Time-delay DNN
Self-Attention: truncated self-attention。
Attend
此模块将encoder的输出向量与关键字向量 z 0 z_0