语音模型:即将 sound 转为 text。
Text: a sequence of Token 长度:N,总种类数量:V
Sound: vectors sequence 长度:T,维度:d
RNN Transducer(RNN-T)
RNA 再改动改动就能成为 RNN-T。
- 考虑一个问题,我们是否能将一个 vector map 识别为一串 token ?比如说听到了 “/θ/、/ð/”,识别为 th
- RNN-T 就可以这样,RNA是只输入一个 vector,输出一个 token,而 RNN-T 却可以在同一个 vector 上一直输出 token,直到model觉得满意为止(可以以 ∅ 为号来作为结束标志)
比如下面这个例子:
- 这里,每一个 ∅ 都代表一