作者:Maximilian Strake Bruno Defraene Kristoff Fluyt Wouter Tirry Tim Fingscheidt
1. 动机
在CRN中通过在卷积编码器和解码器之间集成了LSTM,在这样的结构中,对于完全连接的LSTM,必须放弃特征映射中内部表示的组织和对卷积映射的局部结构的关注。由于LSTM输入的特征空间维度,CRN可能会受到限制。
2. 方法
使用卷积的LSTM代替CRN中完全连接的LSTM,由此产生的网络称为FCRN,并且卷积的LSTM保留了输入特征映射的结构化组织,可以在内部表示语音的谐波,并且使用较少的可训练参数来处理高维特征。使用权重共享较少参数量。
3. CED结构
如图特征表示的大小在每一层之前和之后给出,feature axis size×time axis size×number of feature maps, 其中time axis size大小始终设置为 1,使网络能够处理单帧数据。feature axis size和输入number of feature maps分别由 M 和 C 决定。feature axis上的步长为2,