python声纹识别_声纹识别算法、资源与应用(二)

《声纹识别·资源篇》1. Kaldi最流行的语音技术研究平台,没有之一。代码运行鲁棒性强、架构良好,便于算法修改、定制。如果你是高校科研人员,工程实现能力有限,那么没关系,你只要懂点Shell、Python或Perl脚本,即可顺利开展实验。如果你是工业界人士,完全可直接拿来商用,KALDI遵循Apache licence。如果你是自由开发者,完全可以基于KALDI做一些开发,为企业提供语音服务。表...
摘要由CSDN通过智能技术生成

《声纹识别·资源篇》

1. Kaldi

最流行的语音技术研究平台,没有之一。代码运行鲁棒性强、架构良好,便于算法修改、定制。如果你是高校科研人员,工程实现能力有限,那么没关系,你只要懂点Shell、Python或Perl脚本,即可顺利开展实验。

如果你是工业界人士,完全可直接拿来商用,KALDI遵循Apache licence。

如果你是自由开发者,完全可以基于KALDI做一些开发,为企业提供语音服务。表1. kaldi中相关的Speaker Verification recipe

2. TensorFlow-based Deep Speaker

实现ResNet网络上的TE2E(Tuple-base end-to-end)Loss function训练方式。安装TensorFlow、Python3和FFMPEG(文件格式转换工具)后,准备好数据,即可一键训练。只可惜验证部分还没做,而且GRU没实现、tensor实现部分也不严谨,可详细阅读代码和论文,并贡献下您的代码。

3. PyTorch-based Deep Speaker

基于百度论文[1],实现了ResNet + Triplet Loss。不过在 牛津大学的Voxceleb库上,EER比论文[2]所宣称的(7.8%)要高不少,看来实现还是有改进空间。Owner在求助了,大家帮帮忙contribute。

4. TristouNet from pyannote-audio

一个音频处理工具箱,包括Speech change detection, feature extraction, speaker embedd

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值