模型结构
在本文中使用40维的mfcc作为输入特征,mfcc采样时使用长度为25ms,步长10ms的方式进行采样。模型使用带有 m o m e n t u m = 0.9 momentum=0.9 momentum=0.9和 l 2 = 0.001 l2=0.001 l2=0.001的sgd,初始学习率为0.1。总共训练30000step,每step的batch_size为100,每训练10000 step学习率乘以0.1,模型每训练1000step在验证集上验证一次acc。保留验证集上效果最好的模型。
Squeeze and excitation block
SE block来自于2017年imagenet的冠军模型SENet,在本文中对输入的特征使用通用卷积进行特征抽取,然后使用Squeeze and excitation block来进行通道级别的权重生成,最后得到新的特征。
Depthwise separable convolution
此处通过使用深度可分离卷积有效降低模型的参数量,在模型中有两处使用了深度可分离卷积,一处是类似resnet的残差模块DS-conv block,此处为两层深度可分离卷积堆叠而成。DS-conv block中的网络层按照下面格式排列:
在block中的point-conv的输出通道全部为64,depth-conv的卷积核为 3 × 3 3\times3 3×3,膨胀系数(dilation_rate)为 2 i 3 2^{\frac{i}{3}} 23i,i表示这个DS-block为第i个DS-block.
一处单层的深度可分离层。此处的depth-Conv卷积核为 3 × 3 3\times3 3×3,膨胀系数(dilation_rate)为16,输出通道数为64。
Output
输出为DS-conv+global avg-pool+softmax组成,其中此处的DS-conv为单层深度可分离卷积(无shortcut)。
问题与改进
根据论文Identity Mappings in Deep Residual Networks可知,DS-resnet中使用的恒等映射为ReLU before addition,模型准确率弱于full pre-activation,所以可以将映射方式改为full pre-activation。