Depth-First Neural Architecture With Attentive Feature Fusion for Efficient Speaker Verification

DF 设计背后的核心思想在于在保持网络复杂性的同时显着加深网络。

    (a)~(d) 从 ResNet18 到 DF-ResNet56 的路线图。 (a) 原始 ResNet 中的瓶颈块。 (b) 用深度卷积代替标准卷积。 (c) 下移 32 个通道的 1 ×1 卷积,上移 128 个通道的 1x1 卷积。另外,将深度卷积的通道数从 32 更改为 128。 (d) 单独的下采样层放置在残差块之后。单独的 d.s.代表单独下采样。

深度卷积

参数量从普通卷积的3*3*3*5=135变成3*3*3+1*1*3*5=62

逐深度卷积:不同于原始卷积,深度卷积是一个卷积核负责一个通道,独立地在每个通道上进行空间卷积。因此,深度卷积的输出特征图数量等于输入特征图数量,无法进行有效的维度扩展。
逐点卷积:由于一个特征图仅被一个滤波器卷积,无法有效的利用不同通道在相同空间位置上的特征信息,由此加入了逐点卷积。点卷积主要是要1×1卷积构成,负责将深度卷积的输出按通道投影到一个新的特征图上。

    

第一步基本块换成瓶颈块(4*2*3-4*2*2=8)从resnet18--resnet26,所有指标全部变差。

第二步,深度卷积(32*128**2+3*3*158+128*128+128**2到32*128**2+3*3*32+32*32),三个指标都进行了下降。

第三步置换卷积层,参数显著下降,flop基本不变,error暂时升高

第四步,除了最后一个残差块之外,其他每个的输出都下采样一下,参数稍微上升,error重新降低。

第五步,三个指标的下降,为增加层数做好了准备。

  (a)→(d) 从 ECAPA(C = 512) 到 DF-ECAPA52 的路线图。为了简单起见,图中忽略了 SE 块。 (a) ECAPA 中的原始 SE-Res2Block(C = 512)。 (b)将 3 × 3 扩张卷积替换为 5 × 5 标准卷积。 (c) 将通道数下采样一半。 (d) 将 DF-ECAPA244 中 SE-Res2Block 中前两层的通道数缩小一半。

第一步本来想用扩张卷积,这不会增加参数,但它牺牲了对复杂关系进行建模的能力。又由于更大的感受野可以通过简单地增加内核大小来实现。因此,决定删除扩张卷积并采用具有大内核尺寸的标准卷积。

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值