MULTI-DIMENSIONAL FREQUENCY DYNAMIC CONVOLUTION WITH CONFIDENT MEAN TEACHER FOR SED

最新推荐文章于 2024-08-16 07:38:14 发布

蔡栖月

最新推荐文章于 2024-08-16 07:38:14 发布

阅读量1k

点赞数 14

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ggqyh/article/details/136412428

版权

摘要

近期，卷积神经网络（CNNs）在声音事件检测（SED）中得到了广泛应用。然而，传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题，我们提出了多维频率动态卷积（MFDConv），这是一种新的设计，使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力，这大大增强了卷积核的特征提取能力。此外，为了提高平均教师模型的性能，我们提出了自信平均教师模型，以提高教师产生的伪标签的准确性，并用高置信度标签来训练学生模型。实验结果表明，所提出的方法在DESED真实验证数据集上的PSDS1和PSDS2分别达到了0.470和0.692。

1.引言

声音事件检测（SED）任务旨在检测音频片段中存在的特定声音事件，它已广泛应用于医疗、可穿戴设备和智能安全领域。最近，半监督SED在声音场景与事件检测和分类（DCASE）挑战赛任务4中吸引了越来越多的研究兴趣。

随着深度学习（DL）的发展，SED采纳了各种DL方法并取得了巨大成功。在这些方法中，CNN常用于从音频特征中提取高维表示。然而，基本卷积的特征提取能力是有限的。为了解决这个限制，已经有几次尝试将注意力机制整合到卷积块中，包括SENet、SKNet和CBAM。近期，动态卷积技术因其基于各自注意力动态聚合多个并行卷积核而在优化高效CNN中变得流行。尽管其性能有所提高，动态卷积存在一个关键的限制，即仅有一个维度（卷积核数量）被赋予动态属性，而其他维度被忽视。

此外，这些方法主要是为图像数据设计的，并不完全适用于时频谱图。具体来说&#x

最低0.47元/天解锁文章

博客等级

码龄4年

15
原创

420
点赞

343
收藏

292
粉丝

关注

私信

热门文章

分类专栏

蓝桥杯嵌入式 2篇
RTOS 2篇

展开全部收起

最新评论

FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD
CSDN-Ada助手: 恭喜您在博客领域的持续创作，这篇“FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD”听起来非常有趣和有价值。在这个领域您展现了很高的专业水平和创新能力，希望您能继续分享您的研究成果和想法。或许在下一篇博客中，您可以探讨该方法的实际应用案例或者与其他数据增强方法的比较分析，这样更有助于读者更深入地了解您的研究成果。期待您未来更多的精彩作品！
AST: Audio Spectrogram Transformer
CSDN-Ada助手: 恭喜您发布了第9篇博客“AST: Audio Spectrogram Transformer”！非常感谢您持续不断地分享有关音频谱图变换器的知识。在未来的创作中，您可以考虑深入探讨该技术在音频处理领域的应用案例，或者结合实际项目进行详细的实验分析，以便更好地帮助读者理解和应用这一技术。期待您未来更多精彩的分享！
SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition”听起来非常吸引人。您的深入研究和分享对于自动语音识别领域的发展具有重要意义。希望您能继续坚持创作，为读者带来更多有价值的内容。或许在下一篇博客中，您可以探讨一些与数据增强相关的新方法或者将SpecAugment应用到其他领域的实践经验分享，让读者收获更多启发和思考。期待您的下一篇作品！
HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMERFOR SOUND CLASSIFICATION AND DETECTION
CSDN-Ada助手: 恭喜作者发布了这篇名为“HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION”的博客，内容涉及到音频分类和检测，展现了作者对于音频处理领域的深入研究和探索。希望作者能够继续保持创作的热情和努力，不断探索音频处理领域的更多可能性，也期待能够在未来的作品中看到更多关于音频处理的实践经验和应用案例。祝作者一切顺利，期待您的下一篇作品！
蓝桥杯嵌入式（二）：从点亮LED开始
CSDN-Ada助手: 恭喜作者在蓝桥杯嵌入式比赛中取得了进展，文章内容也很有深度。希望作者可以继续分享关于嵌入式的学习经验，或者可以深入探讨一些具体的项目实践，让读者更好地理解和应用所学知识。期待作者的下一篇文章！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。