《A NEURAL TEXT-TO-SPEECH MODEL UTILIZING BROADCAST DATA MIXED WITH BACKGROUND MUSIC》阅读笔记

在这里插入图片描述

Motivation

现在从各种媒体获取语音数据越来越方便, 如可以从youtube上获取音频数据。因此希望可以利用这些数据来做语音合成。 但存在一个问题是: 这些数据里面干净的数据不多, 大多数包含噪声或者背景音乐。 因此,文章提出的方法就是希望从这些媒体数据中来训练语音合成的模型。

Previous method

  1. 在训练TTS模型之前对数据进行预处理:如可以使用语音增强的方法。 过滤的方法一般分为基于语音信号和基于spectral masking的方法。 但是由于过滤后的数据和干净数据还是有区别的, 所以效果不好。
  2. 对语音数据的质量进行编码:GST用干净和噪声数据进行训练后, 可以学习语音音质表示来作为参考音频的风格。在inference阶段的时候就可以选择clean token 来控制合成干净的语音。但是当训练数据不够多的时候效果不好,可能是因为token的数量有限,难以表示各种类型的音乐, 并且由于干净音频数量有限, clean token没办法很好地表示干净音频。

Method

  1. 利用一个music filter将背景音乐从语音数据中过滤掉。
  2. 用GST-TTS模型, 并且添加一个辅助的质量分类器(AQC)来对过滤后的数据和一些干净数据进行训练。AQC能够帮助style embedding vector 更关注表示输入参考音频的质量而不是语音的韵律等因素, 因此AQC的输出称为 quality embedding。

Model

在这里插入图片描述

Pre-Processing Using the Music Filter

training

噪声数据的获取: 干净的语音和随机选择的BGM以一个预定义的信噪比(SNR)混合。
输入: 噪声数据的幅度谱
模型: music-filter network
输出:频谱掩膜

输入: 掩膜和幅度谱
模型: 掩膜乘以幅度谱来过滤音乐噪声
输出: 过滤后的幅度谱

优化目标: 最小化原始音频和过滤后音频的MSE

inference

在TTS训练之前, 先用该模型对噪声数据进行预处理

music fliter模型结构参考:

Q. Wang, H. Muckenhirn, K. Wilson, et al., “VoiceFilter: Targeted Voice Separation by SpeakerConditioned Spectrogram Masking,” in Annual Conference of the International Speech Communication Association (Interspeech), 2019, pp. 2728 2732.

GST-TTS with the AQC

GST 部分模型参考:

Y. Wang, D. Stanton, Y. Zhang, et al., “Style tokens: Unsupervised style modeling, control and transfer in endto-end speech synthesis,” in Proc. of the 35th International Conference on Machine Learning, 2018, vol. 80, pp. 5180–5189.

TTS 部分模型参考:

H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784–4788.

training

输入: 文本序列 和 对应音频的mel谱
模型: text encoder 和 audio encoder
输出: text embedding 和 audio embedding

输入:text embedding 和 audio embedding
模型: attention
输出: context embedding

输入: 输入音频的mel谱
模型:reference encoder
输出: reference embedding

输入: reference embedding
模型: GST layer[通过多头注意力机制计算reference embedding和多个token之间的距离]
输出: quality embedding

输入: quality embedding, context embedding
模型: decoder
输出: 预测的mel谱

优化目标: L T T S L_{TTS} LTTS= L1 loss + binary divergence loss( D b d D_{bd} Dbd

AQC模型: 全连接层[256 hidden units] + RELU + softmax, 用二元交叉熵来预测参考音频是否是干净的。

因此整个模型的损失函数为: L t o t a l = L T T S + λ L A u x L_{total} = L_{TTS} + \lambda L_{Aux} Ltotal=LTTS+λLAux

Experiments

四个对比模型:
在这里插入图片描述

Performance Evaluation of the Music Filter

在这里插入图片描述
表1说明过滤后的数据PESQ值比噪声数据更高, 表2中说明过滤后的数据在信噪比在0~5DB内SER值更低, 但是在10-20dB时,SER反而变高了, 这是因为在高信噪比下,由音乐滤波器引起的失真比相对低的噪声对语音识别器的影响更大。
在这里插入图片描述
上述的melpu图可以看出, 尽管过滤后的音频mel谱有点模糊,但是已经把音乐噪声给移除了。

performance measure

设置训练集中干净数据和噪声数据不同比例来训练模型。干净数据时间设置为0.5h,1.5h,2.5h,5h。

Quality embedding

在这里插入图片描述
从上图可以看出: AQC对于分离干净和过滤后的语音来保证embedding的质量。

在这里插入图片描述

音频样例:https://nc-ai.github.io/speech/publications/tts-with-bgm-data/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值