强噪声下的语音检测 VAD

VAD是语音处理中经常使用的技术,不大起眼,但也至关重要,往往各大技术团队都会很在意“模型”上的跟进与改进,忽视VAD这种技术的重要性,因为模型上很多是技术的前沿点,比如DNN,大家做了能拿出来吹吹牛,并且这种技术大家都做,通常会得到一个stata of the art的技术指标,而VAD呢,研究了N年也没个标准,也没有使用前沿技术,做了引不起内部、外部关注,并且难度一点都不小,不像DNN这种技术,本身比较统一,开源的资源比较多,大家主要是在参数配置,速度优化上做文章,有很明确的优化方向,但VAD就像一个大坑,用什么方法?基于规则还是模型?什么特征稳定?都还没个标准,放眼望去,文章五花八门。

最近做了一些强噪声的语音检测,主要针对以下类似语音:

与手标端点相比,达到95%准确率,还比较有成就感,记录一下。





  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值