《声纹识别·资源篇》
1. Kaldi
最流行的语音技术研究平台,没有之一。代码运行鲁棒性强、架构良好,便于算法修改、定制。如果你是高校科研人员,工程实现能力有限,那么没关系,你只要懂点Shell、Python或Perl脚本,即可顺利开展实验。
如果你是工业界人士,完全可直接拿来商用,KALDI遵循Apache licence。
如果你是自由开发者,完全可以基于KALDI做一些开发,为企业提供语音服务。表1. kaldi中相关的Speaker Verification recipe
2. TensorFlow-based Deep Speaker
实现ResNet网络上的TE2E(Tuple-base end-to-end)Loss function训练方式。安装TensorFlow、Python3和FFMPEG(文件格式转换工具)后,准备好数据,即可一键训练。只可惜验证部分还没做,而且GRU没实现、tensor实现部分也不严谨,可详细阅读代码和论文,并贡献下您的代码。
3. PyTorch-based Deep Speaker
基于百度论文[1],实现了ResNet + Triplet Loss。不过在 牛津大学的Voxceleb库上,EER比论文[2]所宣称的(7.8%)要高不少,看来实现还是有改进空间。Owner在求助了,大家帮帮忙contribute。
4. TristouNet from pyannote-audio
一个音频处理工具箱,包括Speech change detection, feature extraction, speaker embedd