时延神经网络(TDNN)相当于CNN的前身,相当于1dcnn即一维CNN,它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。TDNN区别于只用了一帧特征的模型结构,是一个能够包含多帧的神经网络,若延时为2,则连续的3帧都能够出现,这里的隐含层用于特征抽取,若输入层每一帧有13维MFCC特征输入,网络有10个隐含层,那么连接的权重数目即为3*13*10=390个。此时延时神经网络相当于把权重延时,隐藏层和输出层之间若采用该方法,这样整体的权重就大大减少,便于训练.
若输入层纵向为经过mel滤波器的16个特征,横向为帧,Input Layer的延时为2,映射对Hidden layer1为16 *3->8,Hidden layer1 8个节点,则权值个数为384。若Hidden Layer1的延时为4,映射到Hidden Layer2的关系是8 *5->3,权值个数则为120。若Hidden Layer2的延时为8,映射到输出层的关系为3 *9->3,权值个数则为81。合计权值为384+120+81=585。TDNN训练方法和传统的反向传播算法一样,具有快速算法,同时网络是多层的,且每层对特征有较强的抽象能力,能够很好的表达语音特征在时间上的关系.根据权值具有时间不变性,学习过程中不要求对所学的标记进行精确的时间定位,此时通过共享权值,方便模型学习训练。
此外在kaldi中,在g