语音识别的降噪思路和总结

最新推荐文章于 2025-03-26 18:05:55 发布

welen_flying

最新推荐文章于 2025-03-26 18:05:55 发布

阅读量1.4w

点赞数 15

分类专栏：语音识别音频算法开发文章标签：降噪语音增强 ASR WER

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiqiwu1986/article/details/88535598

版权

噪声问题一直是语音识别的一个老大难的问题，在理想的实验室的环境下，识别效果已经非常好了，之前听很多音频算法工程师抱怨，在给识别做降噪时，经常发现WER不降反升，降低了识别率，有点莫名其妙，又无处下手。

　　刚好，前段时间调到了AIlab部门，有机会接触这块，改善语音识别的噪声问题，虽然在此之前，询问过同行业的朋友，单通道近场下，基本没有太大作用，有时反而起到反作用，但是自己还是想亲身实践一下，至少找到这些方法失效的原因，看看是否在这些失败的原因里面，改进下思路，可能有新的发现；同时去Ailab，顺带把深度学习降噪实践一把，就算在ASR没有效果，以后还能用在语音通信这个领域。

　　任务的要求是保证声学模型不变动的情况下，即不重新训练声学模型，即单纯利用降噪来改善那些环境恶劣的样本，同时保证不干扰纯净语音或者弱噪声的语音场景，所以非常具有挑战性。

　　为了赶项目，用自己非常熟悉的各种传统的降噪方法：包括最小值跟踪噪声估计，MCRA， IMCRA，等各种噪声估计方法，以及开源项目 webrtc NS, AFE(ETSI ES 202 050 Advanced DSR Front-end Codec, two stages of Wiener filtering)，剩下的任务就是调参，经过很多次努力，基本没有什么效果，相反WER还会有1%点左右的增加。

分析对比了降噪和没有降噪的识别文本对比和频谱分析，总结了以下这些原因，希望对后面的人有些参考意义：

　　1.DNN本身就有很强的抗噪性，在弱噪声和纯

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。