CAM++

masami麻酱

已于 2023-12-03 17:56:53 修改

阅读量451

点赞数 1

文章标签：人工智能

于 2023-12-02 02:21:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80722985/article/details/134720134

版权

1.背景简介

Ecapa Tdnn的性能出色，但需要以高的计算复杂度和慢的推理速度为代价。

不适合在对推理速度和计算资源有限制的条件下使用。

1.1 目的

兼顾Ecapa Tdnn的表现和tdnn的效率。

1.2Cam++

cam++采取了D-Tdnn和multi-granularity pooling来提取上下文信息。

1.3数据集

VoxCeleb和CnCeleb上cam++以更低的计算复杂度和更快的推理速度超过了其他主流说话人验证系统

2.模型架构

2.1 D-Tdnn

每个Dtdnn层的输入都是前面所有Dtdnn层的输出以及整个Dtdnn快的输入。

D-Tdnn是相对于Tdnn，它可以做到更少参数，计算成本更低，但和ecapa tdnn，resnet34有差距。

这篇论文先将D-TDNN块的D-TDNN层进行了改进

原来的样子是：

原来1和8之间夹了6个dtdnn层，现在增加到12层，原来8和21之间夹了12个dtdnn层，现在增加到24，之后它应该是在21之后又加了16个tdnn层。将原来Dtdnn层的Size（增长率）由64同意降低到32.此外，还将每一层的滤波器的通道数减少。最后实现了模型深度增加，控制了复杂性的增加。

2.2CAM

tdnn层关注局部时间特征，cam是通过上下文嵌入e来预测，预计得到的M会包含关注的说话者和噪声的特征。

cam使用全局统计池化和分段平均统计池化，将两者结果聚合并经过FNN，relu，sigmoid函数得到M。

M与tdnn的结果F（X）逐元素相乘。让结果有效感知上下文。

作用：将CAM模块嵌入到每个Dtdnn层，增强网络的声纹特征的表示能力。

2.3 FCM

原来TDNN采用一维卷积，使用的卷积核会覆盖时延范围内的全频率，会在某些局部频率区域捕获说话人的声音特征比较困难。

此外Dtdnn为了让网络深度变深，就让每个Dtdnn层变窄，减少参数量，这样会导致在某些局部频率区域捕获说话人的声音特征比较困难。

FCM采用具有残差连接的二维卷积块对时频域同时卷积。

3.实验结果

CAM++在VoxCeleb1和CN-Celeb上错误iv都是最低的

使用了带全局池化（GP）和分段池化（SP）的CAM，并且将CAM加入到每个DTDNN层中（CAM[6]是指将CAM加入到DTDNN块后的过渡层)效果最好。

复杂性上，CAM++略高于Resnet34，但浮点运算和推理时间都远低于Ecapa和resnet34.

4.结论

CAM+引入了一种新颖的上下文感知遮蔽方法，旨在聚焦于感兴趣的说话者，并提高特征的质量，同时，多粒度池化将不同层次的上下文信息融合，生成准确的注意力权重。

CAM++在计算复杂性更低和推断速度更快的情况下，相较于流行的ECAPA-TDNN和ResNet34系统，取得了更优越的性能。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CAM++

Ecapa Tdnn的性能出色，但需要以高的计算复杂度和慢的推理速度为代价。不适合在对推理速度和计算资源有限制的条件下使用。
复制链接

扫一扫

masami麻酱 CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

162万+: 周排名

24万+: 总排名

1220: 访问

: 等级

51: 积分

15: 粉丝

16: 获赞

2: 评论

19: 收藏

私信

关注

热门文章

最新评论

Depth-First Neural Architecture With Attentive Feature Fusion for Efficient Speaker Verification
CSDN-Ada助手: 恭喜您撰写了标题为“Depth-First Neural Architecture With Attentive Feature Fusion for Efficient Speaker Verification”的博客！您对深度优先神经架构与注意力特征融合在高效说话人验证中的应用进行了精彩的探讨。这篇博客充分展示了您在该领域的深入理解和研究能力。作为下一步的创作建议，我想提醒您在博客中加入更多实际案例或实验结果，这将使读者更好地理解您的观点，并更加深入地探索该领域的应用。此外，您可以考虑引用一些相关研究或观点，以拓宽读者的视野并加强您的论述。继续保持您的创作热情和努力，期待您未来更多精彩的博客内容！请谦虚地接受这些建议，因为我相信您会在未来的创作中不断进步和取得更大的成就。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Depth-First Neural Architecture With Attentive Feature Fusion for Efficient Speaker Verification
CSDN-Ada助手: 非常棒的博客！你的标题和摘要已经很好地概括了你的博文内容。我鼓励你继续创作，分享更多关于深度学习和神经网络的知识。除了你提到的ResNet和DF-ResNets，还有一些扩展的知识和技能可以与你的博文相关。例如，你可以探索更多的神经网络架构，如Inception、VGG和MobileNet，以及它们在不同任务上的应用。此外，你还可以了解更多关于特征融合的方法，如注意力机制、卷积操作和池化操作等。希望我的建议对你有所帮助，期待看到你更多精彩的博客！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。