SincNet是由Micro Ravanelli在NISP 2018上发表的,用CNN处理原始语音波形:https://arxiv.org/pdf/1811.09725.pdfarxiv.org
同时,发表在SLT2018,作者将SincNet应用到了说话人识别上,并且在说话人辨认和说话人确认任务上都取得了性能提升:https://arxiv.org/pdf/1808.00158.pdfarxiv.org
下面我们就通过这两篇paper来解读一下什么是SincNet,并且看一下作者如何把SincNet应用在说话人识别任务上。
【文末附代码仓地址】
引言
近年来,许多深度神经网络(DNNs)模型被用于说话人识别。过去大多数的尝试,都是基于手工设计的特征,例如FBank、MFCC等。这些特征在设计之初都是基于人类的听觉感知理论,并不能保证对于具体的语音任务都是最优的。因此,一些新的工作尝试将语音波形直接输入到CNN网络。
本文的作者认为,CNN在处理原始语音波形时,起到关键作用的是第一层卷积层。第一层的卷积核可能会捕捉到一些人类直觉之外的,但是对神经网络有效的一些特征。基于这个想法,本文提出SincNet,将第一层卷积层设计为可训练的带通滤波器。实验表明SincNet相比于标准的CNN,收敛更快,性能更好。
数据集
SincNet模型
1. 第一层卷积层的设计
处理语音波形的第一层卷积,可以视为一组可训练的有限冲激响应滤波器(FIR),形式化描述如下:
其中