前言
- 本篇博客对TDNN网络结构的特性进行梳理,使读者了解设计所考虑的问题,关于其结构请参考博客Time-Delay Neural Network(TDNN)-上。博客基于对论文 Phoneme Recognition Using Time-Delay Neural Network 的阅读和理解,如有谬误,还望指出,不胜感激。
正文
语音识别的小伙伴都知道,语音识别通常要把一段不等场的语音切分成等长的小段,通常是每小段长度为25ms,然后以小段为单位进行处理,即只考虑当前帧。Time-Delay顾名思义即在时间上会有延迟,具体一点是指在识别的时候当前帧不仅考虑自身,还要参考一定数量的前后帧。
TDNN具有以下特性:
- 多层的feedforward NN及节点之间紧密的连接使得其可以表示复杂的非线性分类面;
- Time-Delay使得其可以学习到特征之间的时序依赖;
- 学习到的特征具有时移不变性,同一个音素出现在语音的不同位置学到的特征应该尽可能相近;
- 学习过程中特征和标签不需要精确地对齐;
- 参数数量应该远小于训练样本的数量;