- Speech Recongnition
- TTS(Text-to-Speech),属于Speech Synthesis
典型模型Tacotron,用的是一个典型的 Seq2Seq + Attention 的模型架构。它输出还会有个后处理(Post-processing)才会产生声音频谱(spectrogram)。
CBHG结构(G2P,Grapheme-to-Phoneme,字素到音素):
SR基本概念
语音模型:即将 sound 转为 text。
- Text: a sequence of Token 长度:N,总种类数量:V
- Sound: vectors sequence 长度:T,维度:d
一、Text Token
- Phoneme(音位、音素):即 a unit of sound,可以理解为发音的音标
- Grapheme(字位,书写位,最多使用⭐):即 smallest unit of a writting,比如【26个英文字母+空格+标点符号】
- Word:即语言中的单词
- Morpheme(字位,书写位):即 smallest meaningful unit,比如英语单词的词根。词素是构成词的要素。词素是比词低一级的单位,词是语言中能够独立运用的最小单位,是指词在句法结构中的地位和作用而言的。
- Bytes:直接用字节表示一组Text,常见的诸如 UTF-8 编码
二、声音特征 Acoustic Feature
通常以 25ms 为窗口长度,将声音讯号转为 一个向量(frame,也即帧),每次窗口移动 10ms,也就是说 1s →100 frames
frame 制作方法
- sample points:当 声音采样率 在 16KHz 时,其在 25ms 内一共有 400个 sample points,直接将这400个数字拿过来当frame即可
- 39-dim MFCC:一共有39维
- 80-dim filter bank output:一共有80维
frame 制作过程
首先,Waveform(波形) 通