音频中有噪声后的分析和改进

本文探讨了含有噪声的音频问题,特别是在语音合成中的表现。通过分析噪声特点,提出多种处理方案,包括波形后处理、神经网络后处理以及利用神经网络改善Spec的平滑度。针对不同场景,如tacotron与lpcnet合成中的噪声,文章提出了讨论和潜在解决方案。
摘要由CSDN通过智能技术生成

问题定义

拿到一个声音,听出来其中有文本,但是也有噪声,需要分析噪声的来源,噪声的特点,噪声的去除方式

可能使用神经网络来后处理解决,也可能生成的时候就借由神经网络解决,也可能采用传统语音后处理的方式

具体场景1

噪声观察

比如由tacotron合成的lpc features接上lpcnet,合成声音有噪声,明显看出波形的某个位置突然很极端

波形图和语谱图:

(不会用goldwave来看语谱图)

具体场景2

噪声观察

  1. 语谱图上不连续,混乱,意味着生成的spec之间是冲突的,前后帧共享部分并不相同
  2. 波形图上有毛刺,但是并不是普通的白噪声
  3. 其实右边的spec是很多不同句话凑出来的,然后直接GL合成,确实有矛盾

对波形语音后处理

先观察波形,以挑噪声的角度来看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值