基于双门限法的语音端点检测及语音分割

voice_activity_detection

Audio Split 基于双门限法的语音端点检测及语音分割

代码在我的github上voice_activity_detection

如果您觉得有一点点用,请隔空比个心(或者,去我的github上点一下 “Star” 也可以~)

根据短时能量和过零率, 基于双门限法的语音端点检测及语音分割

直接运行audio_split.py,会对./raw_audio文件夹下的所有音频文件进行分割:

  1. 首先对原音频转成16kHz,16bit,PCM格式,单通道的.wav文件,保存在./convert2wav文件夹下;
  2. 再对转换后的文件进行第一次分割,保存在./detected_split1文件夹下;
  3. 再次对分割后的文件分割,保存在./detected_split2文件夹下;
  4. 最后根据时长限制,加速音频,保存在./duration_limit文件夹下。

以上各步骤可选,参数均可自由设置,程序里有详细注释。

另外,对于acoustic_feature.py,请看我另一个仓库:声学特征提取

关于./raw_audio文件夹下的两个示例文件,运行程序会有两张plot输出:

图1 汉语:“蓝天 白云”的语音端点检测

图2 一些汉语数字的语音端点检测

Python Import

关于本程序的依赖库(其中Librosa最好和我使用的版本一致,其他版本都没测试过):

  • Librosa-0.7.2
  • Numpy-1.18.1
  • matplotlib-3.1.3
  • Scipy-1.4.1
  • Soundfile-0.9.0

License 开源许可协议

GPL v3.0 © ZZL

赞助

如果你喜欢本程序,并且它对你有些许帮助,欢迎给我打赏一杯奶茶哈~

微信:

支付宝:

  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值