文章目录
01 Introduction for Speech Recognition
语音识别系统的输入和输出分别是语音和文字
Token
对于Token的选择我们可以有以下几类:
- phoeme:a unit of sound
可以将其理解为音标,是发音的基本单位。但是机器看不懂,这个时候我们就需要词表lexicon
在深度学习之前,我们需要人工构造数据的预处理所以phoneme是非常常见的选择,但是特征构造的过程极其复杂,lexicon的构建需要语言学的知识。
- Grapheme:smallest unit of a writing system(最小的语法单位、书写的最小单位)
如果是英文单词,那么我们就需要再次回之前加上空白(空格)
26 English alphabet + {__}(space) + {punctuation marks}
如果是中文单词我们就不需要空格。
这样我们就完全不需要Lexicon了,但是把“字”作为基本单位的话,语音中发音相似的字到底是什么那就需要很长的上下文才能确定
- word:如果把“词”作为语音辨识的基本单位
问题就在于很多语言的词汇表太多了,这是一件麻烦事。比如土耳其文,他的词可以无限创造
- Morpheme:the smallest meaningful unit(<word,>grapheme)这个语言里面可以传达意思的最小单位
unbreakable–>“un"break”“able”
refillable---->“re”“kill”"able‘’
那么如何获得语言的Morpheme呢:一般是用语言学的知识或者基于统计的方法
- Bytes(!):The system can be language independent!
比如我们用UTF-8,我们可以表示全世界几乎所有的词
V is always 256
在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个token的使用占比:
phoneme使用的人较多是因为这类数据和语音数据的联系比较直接简单。
声学特征的提取
时间 ( s ) = 1 / 频率 ( H Z ) 时间(s) = 1 / 频率(HZ) 时间(s)=1/频率(HZ)
16000 X 0.025 = 400
MFCC现在已经不常用了,一般使用filter bank output。将其400个采样点转换成80维的向量
如果把1s切割为10ms,那么1s的声音讯号就会产生100个frames,可以理解为句子的sequence。
完整过程:
在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个Acoustic Feature方法的使用占比。
Data sets
English corpora:我们到底需要多少声音信号的语料库呢?
Librispeech是比较合理的基础数据集。
MNIST:28X28X1X60000=47,040,000.这是一个有六万张图片的手写字体识别的数据集,相当于有这么多的数字
CIFAR-10:32X32X3X50000=153,600,000=2h40min
如果把它换成语音信号,以16kHZ来进行采样的话,大概只有49分钟的数据
Two Points of Views for Speech Recognization
Seq-to-Seq and HMM
Models to be introduced
- Listen, Attend, and Spell(LAS)
- Connectionist Temporal Classification
- RNN Transducer(RNN-T)
- Neural Transducer
- Monotonic Chunkwise Attention
在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个Models的使用占比: