AutoSpeech: Neural Architecture Search for Speaker Recognition

最新推荐文章于 2023-09-11 23:51:41 发布

java_crocodile

最新推荐文章于 2023-09-11 23:51:41 发布

阅读量330

点赞数

分类专栏：声纹识别文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41048571/article/details/120266876

版权

声纹识别专栏收录该内容

16 篇文章 2 订阅

订阅专栏

背景
经典的CNN可能并不适合声纹识别。本文提出了一种网络搜索的办法，来寻找最适合的network。

实现

search space：网络由多个cell，组成，每个cell的结构如下：
在这里插入图片描述

每个xi代表了一个tensor，每个edge代表了一种operation oij(.)
每个Cell包括2个input node、4个intermediate node、1个output node

第k个input的x0为第 k-2个cell的output，x1为第 k-1个cell的output
对于intermediate来说
在这里插入图片描述

output即将所有intermediate的output连接起来。

一共有14条Edge，每条edge对应8种常用的operation（search space O）。

在这里插入图片描述

主干网络由8层cell组成，其中在1/3与2/3位置的为reduction cell（先除以resolution数2，再乘通道数2），其他的为normal cell（保持spatial resolution）。所有normal cell的结构相同，所有reduction cell的结构也相同。

NAS：
优化两组参数：
1. α用来选择operation
在这里插入图片描述
2. W用来代表operation的参数

通过Softmax来优化参数α损失函数：
在这里插入图片描述
用Lvalidation来优化α，Ltrain来优化W。

本文将两者都用cross-entropy来表示:
在这里插入图片描述
K代表说话人数量。

训练过程如下：

训练完成之后，对每个x，保留两种拥有最高的softmax probability的operation（0除外），概率计算为：
在这里插入图片描述

之后测试不同数量的cell、channel，1/3与2/3的位置为reduction cell，其他为normal cell，用cross entropy loss进行优化，将average pooling的输出作为embedding。

实验
Voxceleb1分别提供了SV与SID的数据集，NAS时用SV数据集进行训练；模型训练时，用两个数据集分别训练。
测试了N=8、C=64，N=30、C=64与N=8、C=128的模型，保持它们的参数相同。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
6
评论
AutoSpeech: Neural Architecture Search for Speaker Recognition

背景经典的CNN可能并不适合声纹识别。本文提出了一种网络搜索的办法，来寻找最适合的network。实现search space：网络由多个cell，组成，每个cell的结构如下：每个xi代表了一个tensor，每个edge代表了一种operation oij(.)每个Cell包括2个input node、4个intermediate node、1个output node第k个input的x0为第 k-2个cell的output，x1为第 k-1个cell的output对于intermedia
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。