这是一层的tdnn+一层lstm+一层输出层的网络示意图,在t时刻拼接三帧特征后送进tdnn,之后再把tdnn的输出送进lstm,但是lstm不仅需要当前的输入,还需要t-3时刻(delay=-3)自身的输出,即需要