ECAPA-TDNN

实现流程
ECAPA-TDNN由三部分组成:

1-Dimensional Squeeze-Excitation Res2Blocks
传统的x-vector的frame-layers只考虑了15帧的信息,而我们想要其考虑全局的信息,因此使用了 Squeeze-Excitation (SE) blocks首先是squeeze操作:
将每一帧 frame-level features按时间取平均,输入特征为[N, C, L], 其中N为batch size,L为特征帧数, C为channel数,则通过求平均值,将特征压缩成[N,C,1]:
在这里插入图片描述

之后是excitation操作:
在这里插入图片描述
最后再将其与输入点乘相当于每个通道分别乘上一个权值。
在这里插入图片描述
整个Res2Blocks如图
在这里插入图片描述

Multi-layer feature aggregation and summation
有两种实现方式:
1. 将每一个Res2Blocks的输出连接起来,再与全连接层连接。
2. 将每一个Res2Blocks的输出求和,而不是连接,从而减小参数量

第一种实现如图所示:
在这里插入图片描述

Channel-and context-dependent statistics pooling
通过注意力机制,赋予每一帧不同的权重
在这里插入图片描述

其中ht代表t时刻的帧,得到权重后,将其归一化
在这里插入图片描述

平均值计算为
在这里插入图片描述

标准差计算为
在这里插入图片描述

输出将平均值与标准差连接起来即可

实验
使用Voxceleb2数据集,AAM-softmax用来对输出进行分类,分类的个数是说话人的数量(输入之前应先通过一个线形层)。
提取最后的全连接层作为说话人的embedding,使用余弦相似度进行打分。
在这里插入图片描述

  • 3
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值