《A NEURAL TEXT-TO-SPEECH MODEL UTILIZING BROADCAST DATA MIXED WITH BACKGROUND MUSIC》阅读笔记

最新推荐文章于 2024-06-25 01:01:00 发布

JanettaC

最新推荐文章于 2024-06-25 01:01:00 发布

阅读量182

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_40695631/article/details/115362165

版权

论文阅读专栏收录该内容

17 篇文章 1 订阅

订阅专栏

本文探讨了在大量含有噪声和背景音乐的语音数据中训练语音合成功能的挑战。提出了结合音乐滤波器和辅助质量分类器（AQC）的GST-TTS模型。音乐滤波器用于去除背景音乐，而AQC则帮助优化风格嵌入向量，聚焦于语音质量而非节奏。实验表明，该方法在一定条件下能有效提升语音合成的纯净度，尤其是在低信噪比数据中。然而，在高信噪比下，音乐滤波器可能导致音频失真。

摘要由CSDN通过智能技术生成

在这里插入图片描述

Motivation

现在从各种媒体获取语音数据越来越方便，如可以从youtube上获取音频数据。因此希望可以利用这些数据来做语音合成。但存在一个问题是：这些数据里面干净的数据不多，大多数包含噪声或者背景音乐。因此，文章提出的方法就是希望从这些媒体数据中来训练语音合成的模型。

Previous method

在训练TTS模型之前对数据进行预处理：如可以使用语音增强的方法。过滤的方法一般分为基于语音信号和基于spectral masking的方法。但是由于过滤后的数据和干净数据还是有区别的，所以效果不好。
对语音数据的质量进行编码：GST用干净和噪声数据进行训练后，可以学习语音音质表示来作为参考音频的风格。在inference阶段的时候就可以选择clean token 来控制合成干净的语音。但是当训练数据不够多的时候效果不好，可能是因为token的数量有限，难以表示各种类型的音乐，并且由于干净音频数量有限， clean token没办法很好地表示干净音频。

Method

利用一个music filter将背景音乐从语音数据中过滤掉。
用GST-TTS模型，并且添加一个辅助的质量分类器（AQC）来对过滤后的数据和一些干净数据进行训练。AQC能够帮助style embedding vector 更关注表示输入参考音频的质量而不是语音的韵律等因素，因此AQC的输出称为 quality embedding。

Model

在这里插入图片描述

Pre-Processing Using the Music Filter

training

噪声数据的获取：干净的语音和随机选择的BGM以一个预定义的信噪比（SNR）混合。
输入：噪声数据的幅度谱
模型： music-filter network
输出：频谱掩膜

输入：掩膜和幅度谱
模型：掩膜乘以幅度谱来过滤音乐噪声
输出：过滤后的幅度谱

优化目标：最小化原始音频和过滤后音频的MSE

inference

在TTS训练之前，先用该模型对噪声数据进行预处理

music fliter模型结构参考：

Q. Wang, H. Muckenhirn, K. Wilson, et al., “VoiceFilter: Targeted Voice Separation by SpeakerConditioned Spectrogram Masking,” in Annual Conference of the International Speech Communication Association (Interspeech), 2019, pp. 2728 2732.

GST-TTS with the AQC

GST 部分模型参考：

Y. Wang, D. Stanton, Y. Zhang, et al., “Style tokens: Unsupervised style modeling, control and transfer in endto-end speech synthesis,” in Proc. of the 35th International Conference on Machine Learning, 2018, vol. 80, pp. 5180–5189.

TTS 部分模型参考：

H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784–4788.

training

输入：文本序列和对应音频的mel谱
模型： text encoder 和 audio encoder
输出： text embedding 和 audio embedding

输入：text embedding 和 audio embedding
模型： attention
输出： context embedding

输入：输入音频的mel谱
模型：reference encoder
输出： reference embedding

输入： reference embedding
模型： GST layer[通过多头注意力机制计算reference embedding和多个token之间的距离]
输出： quality embedding

输入： quality embedding， context embedding
模型： decoder
输出：预测的mel谱

优化目标： $L_{TTS}$ = L1 loss + binary divergence loss（ $D_{bd}$ ）

AQC模型：全连接层[256 hidden units] + RELU + softmax，用二元交叉熵来预测参考音频是否是干净的。

因此整个模型的损失函数为： $L_{total} = L_{TTS} + \lambda L_{Aux}$

Experiments

四个对比模型：
在这里插入图片描述

Performance Evaluation of the Music Filter

在这里插入图片描述
表1说明过滤后的数据PESQ值比噪声数据更高，表2中说明过滤后的数据在信噪比在0~5DB内SER值更低，但是在10-20dB时，SER反而变高了，这是因为在高信噪比下，由音乐滤波器引起的失真比相对低的噪声对语音识别器的影响更大。
在这里插入图片描述
上述的melpu图可以看出，尽管过滤后的音频mel谱有点模糊，但是已经把音乐噪声给移除了。