sinc函数卷积_SincNet论文解读

最新推荐文章于 2024-04-19 16:40:18 发布

阳光快乐林同志

最新推荐文章于 2024-04-19 16:40:18 发布

阅读量989

点赞数

文章标签： sinc函数卷积

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30891153/article/details/113682515

版权

SincNet是一种使用CNN处理原始语音波形的深度学习模型，其核心是第一层的可训练带通滤波器。与传统CNN相比，SincNet在说话人识别任务上表现更优，收敛更快。该模型灵感来源于信号处理，通过预定义的sinc函数和可学习的截止频率参数构建滤波器，避免了手动特征提取。在实验中，SincNet展现了良好的性能和自适应能力。

摘要由CSDN通过智能技术生成

SincNet是由Micro Ravanelli在NISP 2018上发表的，用CNN处理原始语音波形：https://arxiv.org/pdf/1811.09725.pdfarxiv.org

同时，发表在SLT2018，作者将SincNet应用到了说话人识别上，并且在说话人辨认和说话人确认任务上都取得了性能提升：https://arxiv.org/pdf/1808.00158.pdfarxiv.org

下面我们就通过这两篇paper来解读一下什么是SincNet，并且看一下作者如何把SincNet应用在说话人识别任务上。

【文末附代码仓地址】

引言

近年来，许多深度神经网络(DNNs)模型被用于说话人识别。过去大多数的尝试，都是基于手工设计的特征，例如FBank、MFCC等。这些特征在设计之初都是基于人类的听觉感知理论，并不能保证对于具体的语音任务都是最优的。因此，一些新的工作尝试将语音波形直接输入到CNN网络。

本文的作者认为，CNN在处理原始语音波形时，起到关键作用的是第一层卷积层。第一层的卷积核可能会捕捉到一些人类直觉之外的，但是对神经网络有效的一些特征。基于这个想法，本文提出SincNet，将第一层卷积层设计为可训练的带通滤波器。实验表明SincNet相比于标准的CNN，收敛更快，性能更好。

数据集

SincNet模型

1. 第一层卷积层的设计

处理语音波形的第一层卷积，可以视为一组可训练的有限冲激响应滤波器(FIR)，形式化描述如下：

其中

最低0.47元/天解锁文章

阳光快乐林同志

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sinc函数卷积_SincNet论文解读

SincNet是由Micro Ravanelli在NISP 2018上发表的，用CNN处理原始语音波形：https://arxiv.org/pdf/1811.09725.pdfarxiv.org同时，发表在SLT2018，作者将SincNet应用到了说话人识别上，并且在说话人辨认和说话人确认任务上都取得了性能提升：https://arxiv.org/pdf/1808.00158.pdfarxi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。