Why deep?
就像写程序一样,不能把所有程序都放在main里,一层冗余太大,且不能“复用”。
Modularization:模组化,可以用较少的数据获得较好的结果。在第二层里,将第一层的结果作为模型去生成分类器(什么意思?)
正是因为样本不够多,所以才要进行深度学习,如果样本足够多,直接Big Data就可以分类了
模组化-Speech
语音识别的第一阶段
·分类:input -> acostic feature [声学特性], output -> state[状态]
如图,每次取一个窗,窗不会太大,用声学特性来表示一个窗
第一阶段要做的事情就是,判断每一个声学特性,属于哪一个state
此任务完成后要把state转成phoneme,phoneme再转成文字,还要考虑同音异字的问题等等,日后再进行学习,本文还处于入门阶段。
每一个state都有固定的状态分布,但有一些state是共用分布的,即在程序里,两个指针指向了同一个地址,这叫做tied-state。在DNN之前有一个做法HMM-GMM(链接至他人博客文章),共用部分distribution,比如state A用编号为1,4,6 的Gaussian,State B用编号为1,4,5的Gaussian(每一个Phoneme用Tri-phone的形式表示,如下图)
所以来看DNN,
DNN的输入就是一个声学特性
DNN的一个输出就是每一个状态的概率
所有的states都共用一个DNN
waveform:波形
spectrogram:光谱图
Filter Bank:过滤器组