Phoneme的相关概念以及Triphone
目录
前言
1. 在深入了解声学模型和语言模型之前,先普及一下我们经常接触到的一些声学概念,特别是phoneme或者triphone之类的,很多教程或者论文都会大量使用,但很少会去讲解,大概是默认我们都知道吧,如果不知道这些那往后看会比较困难,至少得知道我们到底在用什么来训练语音识别模型。
2. 声学模型就是听到某个发音可以从发音词典中找到对应的单词或者符号,本质在给定发音词典的条件下就是求一个发音的后验概率 ,其中最经典的模型就是HMM,本文会介绍用来训练HMM的几个基本单位。
2. 无论多长或者多短的语音单位都可以做成HMM,这就是HMM的特点,因此便出现了很多可供选择的语音单位。
可用来训练HMM的基本单位
一般我们都会认为单位越小,训练效果越好,怎么样算是好的声学模型,下面讲一下评价标准:
- 精度(Accuracy),希望我们的模型可以精确描述声音
- 是否容易获取大量数据(Trainability),统计模型需要大量数据支持,这里不是指数据好不好找,而是从某段语音中是否可以大量提取这种单位
- 普适性(Generalizability),语言都会出现很多新词或者专有名词,词典没有,此时这个模型是否可以自己拼出来,一般来说单位越小,越具有普适性
1. 词 words
词(word) 这个单位是肯定是准确率最高的,怎么说呢,如果我们想让一个模型去描述"accurate"这个单词,那我们让一群人去念它,然后收集起来训练,那他肯定可以准确描述并识别出新来的的"accurate",比起我们用小音节"a" “c” "t"什么的去拼,那整个词来训练肯定效果更好。
但是英文中常用的词大概有60000个&