语音识别
Ian_Wonder
这个作者很懒,什么都没留下…
展开
-
语音识别中,frame帧与单词的关系
若干帧对应于一个状态,每三个状态合成一个音速,若干个音速组成一个单词。 即: 把帧识别成状态。 把状态组合成音素。 把音素组合成单词。原创 2020-07-06 13:53:45 · 789 阅读 · 0 评论 -
Transformer 笔记总结
transformer这一概念来自于原文attention is all you need 在机器翻译中,输入是一个句子,输出是另一种语言的句子,如下图所示: 即由编码组件、解码组件以及连接层构成,如下图所示: 其中编码器由6个编码器单元构成,解码器由6个解码器单元构成,如下图所示: 其中,编码器单元结构完全相同,但是不共享参数,由self-attention和feedforward组成,self-attention的输出流向一个前向网络,每个输入位置对应的前向网络是独立互不干扰的。如下图左部分所示,原创 2020-07-02 13:37:25 · 321 阅读 · 0 评论