ECAPA-TDNN

最新推荐文章于 2023-10-12 20:09:09 发布

java_crocodile

最新推荐文章于 2023-10-12 20:09:09 发布

阅读量5.2k

点赞数 3

分类专栏：声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41048571/article/details/119299404

版权

声纹识别专栏收录该内容

16 篇文章 2 订阅

订阅专栏

实现流程
ECAPA-TDNN由三部分组成：

1-Dimensional Squeeze-Excitation Res2Blocks
传统的x-vector的frame-layers只考虑了15帧的信息，而我们想要其考虑全局的信息，因此使用了 Squeeze-Excitation (SE) blocks首先是squeeze操作：
将每一帧 frame-level features按时间取平均，输入特征为[N, C, L]，其中N为batch size，L为特征帧数， C为channel数，则通过求平均值，将特征压缩成[N,C,1]:
在这里插入图片描述

之后是excitation操作：
在这里插入图片描述
最后再将其与输入点乘相当于每个通道分别乘上一个权值。

整个Res2Blocks如图

Multi-layer feature aggregation and summation
有两种实现方式：
1. 将每一个Res2Blocks的输出连接起来，再与全连接层连接。
2. 将每一个Res2Blocks的输出求和，而不是连接，从而减小参数量

第一种实现如图所示：
在这里插入图片描述

Channel-and context-dependent statistics pooling
通过注意力机制，赋予每一帧不同的权重
在这里插入图片描述

其中ht代表t时刻的帧，得到权重后，将其归一化
在这里插入图片描述

平均值计算为
在这里插入图片描述

标准差计算为
在这里插入图片描述

输出将平均值与标准差连接起来即可

实验
使用Voxceleb2数据集，AAM-softmax用来对输出进行分类，分类的个数是说话人的数量（输入之前应先通过一个线形层）。
提取最后的全连接层作为说话人的embedding，使用余弦相似度进行打分。
在这里插入图片描述

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
ECAPA-TDNN

实现流程ECAPA-TDNN由三部分组成：1-Dimensional Squeeze-Excitation Res2Blocks传统的x-vector的frame-layers只考虑了15帧的信息，而我们想要其考虑全局的信息，因此使用了 Squeeze-Excitation (SE) blocks首先是squeeze操作：将每一帧 frame-level features按时间取平均，输入特征为[N, C, L]，其中N为batch size，L为特征帧数， C为channel数，则通过求平均值，
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。