sinc函数卷积_SincNet论文解读

SincNet是一种使用CNN处理原始语音波形的深度学习模型,其核心是第一层的可训练带通滤波器。与传统CNN相比,SincNet在说话人识别任务上表现更优,收敛更快。该模型灵感来源于信号处理,通过预定义的sinc函数和可学习的截止频率参数构建滤波器,避免了手动特征提取。在实验中,SincNet展现了良好的性能和自适应能力。
摘要由CSDN通过智能技术生成

SincNet是由Micro Ravanelli在NISP 2018上发表的,用CNN处理原始语音波形:https://arxiv.org/pdf/1811.09725.pdf​arxiv.org

同时,发表在SLT2018,作者将SincNet应用到了说话人识别上,并且在说话人辨认和说话人确认任务上都取得了性能提升:https://arxiv.org/pdf/1808.00158.pdf​arxiv.org

下面我们就通过这两篇paper来解读一下什么是SincNet,并且看一下作者如何把SincNet应用在说话人识别任务上。

【文末附代码仓地址】

引言

近年来,许多深度神经网络(DNNs)模型被用于说话人识别。过去大多数的尝试,都是基于手工设计的特征,例如FBank、MFCC等。这些特征在设计之初都是基于人类的听觉感知理论,并不能保证对于具体的语音任务都是最优的。因此,一些新的工作尝试将语音波形直接输入到CNN网络。

本文的作者认为,CNN在处理原始语音波形时,起到关键作用的是第一层卷积层。第一层的卷积核可能会捕捉到一些人类直觉之外的,但是对神经网络有效的一些特征。基于这个想法,本文提出SincNet,将第一层卷积层设计为可训练的带通滤波器。实验表明SincNet相比于标准的CNN,收敛更快,性能更好。

数据集

SincNet模型

1. 第一层卷积层的设计

处理语音波形的第一层卷积,可以视为一组可训练的有限冲激响应滤波器(FIR),形式化描述如下:

其中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值