【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)

jcfszxc

已于 2022-08-29 21:50:13 修改

阅读量1w

点赞数 28

文章标签：声纹识别说话人识别 ResNet 残差英雄联盟

于 2019-04-29 06:30:45 首次发布

本文链接：https://blog.csdn.net/jcfszxc/article/details/89635728

版权

本博客是基于百度的论文Deep Speaker: an End-to-End Neural Speaker Embedding System
的理论上进行实现的: https://arxiv.org/pdf/1705.02304.pdf

另外参考了一篇Github的代码。
感谢！

Demo-SpeakerRecognize

预加重：
预加重，作用就是为了消除发生过程中，声带和嘴唇造成的效应，来补偿语音信号收到发音系统所压抑的高频部分。
分帧：
因为人的发生器官具有一定的惯性，所以在极短的时间（10ms至25毫秒）内，人的发声特征是非常相似的，所以我们将时间分割成25ms的间隔，以10ms为步长。将一段时长的语音分为许许多多帧。
快速傅里叶变换：
傅里叶变换可以将每一帧的波形特征转换成频谱，即频率和能量的关系。

将频率和能量的关系图旋转90°，将频谱映射到灰度值上，即0~255。然后再将每帧的灰度值按顺序拼起来，就可以得到一张频谱图。
梅尔滤波：
Mel滤波，通过Mel滤波器组进行滤波，以得到符合人耳听觉习惯的声谱，最后通常取对数将单位转换成db。
关系式：
$\times ln(1+\frac{f}{700})$

在这里插入图片描述

残差块：
在这里插入图片描述

残差网络：

在这里插入图片描述
公式：
$h=F(x, w_i)+x,$

网络结构：
在这里插入图片描述
剪切整形线性（ReLU）函数：
$\sigma(x)=min\{max\{x, 0\}, 20\}$

网络结构：
在这里插入图片描述

时间池化：
$h=\frac{1}{T}\sum^{T-1}_{t=0}x(t)$

维度变化：
在这里插入图片描述

在这里插入图片描述
$\cos(x_i, x_j)=x^T_i\cdot x_j$
$s_{i}^{ap}-\alpha>s_i^{an}$

损失函数计算：
$L=\sum^{N}_{i=0}[s_{i}^{an}-s_{i}^{ap}+\alpha]_{+}$
$x]_{+}=\max(x, 0)$

可以很好的适应不同语种的分类识别，论文还指出，如果在普通话训练好的模型基础上在对英语语言模型训练，可以提高最终精度。
我们在训练的时候舍去了GRU的网络，仅仅使用CNN网络对数据进行预训练。即可达到极高的精度了。

这说明了，即使我用不完整的网络，如果使用GRU网络等再度优化网络，可以在更大的数据集也获得
我只花费了极短的时间（大概3~4个小时）就训练好了模型。并且可以达到非常高的精度。
但是代码只能在比较纯净的音频上获得良好的表现，由于我的录音设备与播放设备音质比较差，造成了录音质量的损失。使得测试精度降低了许多，（考虑可以加入噪音处理模块）。