最近在学习语音识别的知识,发现李宏毅老师今年也出了相应的视频,相应的课件可以从下面的位置获取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
Youtube视频:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
课件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf
1. CTC
CTC的全称是Connectionist Temporal Classification
1.1 CTC的推理过程
为了做到Online speech recognition,encoder只能使用uni-directional RNN,不能使用bi-directional RNN.
然后,将 h n h^n hn直接输入到线性classifier中,生成对应token distribution。左侧为classifier的设计。
其中, ϕ \phi ϕ代表不可识别的符号。
CTC将输出的token做处理,参考下面的图。之前看过比较好的介绍,也可以参考&#