问题定义
拿到一个声音,听出来其中有文本,但是也有噪声,需要分析噪声的来源,噪声的特点,噪声的去除方式
可能使用神经网络来后处理解决,也可能生成的时候就借由神经网络解决,也可能采用传统语音后处理的方式
具体场景1
噪声观察
比如由tacotron合成的lpc features接上lpcnet,合成声音有噪声,明显看出波形的某个位置突然很极端
波形图和语谱图:
(不会用goldwave来看语谱图)
具体场景2
噪声观察
- 语谱图上不连续,混乱,意味着生成的spec之间是冲突的,前后帧共享部分并不相同
- 波形图上有毛刺,但是并不是普通的白噪声
- 其实右边的spec是很多不同句话凑出来的,然后直接GL合成,确实有矛盾
对波形语音后处理
先观察波形,以挑噪声的角度来看