DS-ResNet

最新推荐文章于 2024-03-12 15:59:23 发布

雾里闹

最新推荐文章于 2024-03-12 15:59:23 发布

阅读量139

点赞数

分类专栏：语音处理文章标签：深度学习 cnn 语音识别

本文链接：https://blog.csdn.net/shang4283589/article/details/130189180

版权

语音处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Depthwise Separable Convolutional ResNet with Squeeze-and-Excitation Blocks for Small-footprint Keyword Spotting

模型结构

在本文中使用40维的mfcc作为输入特征，mfcc采样时使用长度为25ms，步长10ms的方式进行采样。模型使用带有 $m o m e n t u m = 0.9$ 和 $l 2 = 0.001$ 的sgd，初始学习率为0.1。总共训练30000step，每step的batch_size为100，每训练10000 step学习率乘以0.1，模型每训练1000step在验证集上验证一次acc。保留验证集上效果最好的模型。

Squeeze and excitation block

SE block来自于2017年imagenet的冠军模型SENet,在本文中对输入的特征使用通用卷积进行特征抽取，然后使用Squeeze and excitation block来进行通道级别的权重生成，最后得到新的特征。

Depthwise separable convolution

此处通过使用深度可分离卷积有效降低模型的参数量，在模型中有两处使用了深度可分离卷积，一处是类似resnet的残差模块DS-conv block，此处为两层深度可分离卷积堆叠而成。DS-conv block中的网络层按照下面格式排列：

在block中的point-conv的输出通道全部为64，depth-conv的卷积核为 $3\times3$ ，膨胀系数(dilation_rate)为 $2^{\frac{i}{3}}$ ,i表示这个DS-block为第i个DS-block.

一处单层的深度可分离层。此处的depth-Conv卷积核为 $3\times3$ ,膨胀系数(dilation_rate)为16，输出通道数为64。

Output

输出为DS-conv+global avg-pool+softmax组成，其中此处的DS-conv为单层深度可分离卷积（无shortcut）。

问题与改进

根据论文Identity Mappings in Deep Residual Networks可知，DS-resnet中使用的恒等映射为ReLU before addition，模型准确率弱于full pre-activation，所以可以将映射方式改为full pre-activation。

雾里闹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DS-ResNet

此处通过使用深度可分离卷积有效降低模型的参数量，在模型中有两处使用了深度可分离卷积，一处是类似resnet的残差模块DS-conv block，此处为两层深度可分离卷积堆叠而成。可知，DS-resnet中使用的恒等映射为ReLU before addition，模型准确率弱于full pre-activation，所以可以将映射方式改为full pre-activation。在block中的point-conv的输出通道全部为64，depth-conv的卷积核为。此处的depth-Conv卷积核为。
复制链接

扫一扫