Self supervised learning for robust voice cloning简单记录
论文来源:Submitted to INTERSPEECH 2022
论文机构:Innoetics, Samsung Electronics, Greece
论文作者:Konstantinos Klapsas等
论文链接:https://arxiv.org/abs/2204.03421v1
1 论文内容
本文首次提出将自监督特征应用至声纹克隆任务中。
能够在没有标记的数据集上训练任意数量的说话人,并且使用训练集的少部分即可达到基线的性能。
2 主要思想
这篇论文没有什么特别的,就是利用BYOL-A预训练方法,一堆数据增强算法增强模型的鲁棒性。
3 方法
基础架构:Non-attentive Tacotron TTS
vocoder:LPCNet
预训练方法:BYOL-A
3.1 BYOL-A
BYOL-A包括目标网络和在线网络,两个网络同时训练。这两个网络具有同样的结构,但是使用不同的权重。
设在线网络
为
θ
\theta
θ,目标网络
为
ξ
\xi
ξ,这两个网络都包括一个编码器
f
f
f,一个投影
g
g
g,因此可以得到
f
θ
f_{\theta}
fθ、
g
θ
g_{\theta}
gθ 和
f
ξ
f_{\xi}
fξ、
g
ξ
g_{\xi}
gξ。除此之外,在线网络有一个额外的预测模块
q
ξ
q_{\xi}
qξ。
训练过程——
- 生成音频 x x x的两个增强, u = t ( x ) u=t(x) u=t(x)和 u ′ = t ′ ( x ) u'=t'(x) u′=t′(x)
- 在线网络输出表示
y
θ
=
f
θ
(
u
)
y_{\theta}=f_{\theta}(u)
yθ=fθ(u), 投影
z
θ
=
g
θ
(
y
)
z_{\theta}=g_{\theta}(y)
zθ=gθ(y)
在推理阶段,只有 y θ = f θ ( u ) y_{\theta}=f_{\theta}(u) yθ=fθ(u) - 目标网络从第二个增强视图输出目标投影 z ξ ′ = g ξ ( f ξ ( u ′ ) ) z'_{\xi}=g_{\xi}(f_{\xi}(u')) zξ′=gξ(fξ(u′))
- 在线网络的预测模块从 z ξ ′ z'_{\xi} zξ′ 中得到预测 q θ ( z θ ) q_{\theta}(z_{\theta}) qθ(zθ)
- 将目标投影用 l 2 l_2 l2标准化得到: q ˉ θ ( z θ ) \bar q_{\theta}(z_{\theta}) qˉθ(zθ)、 z ˉ ξ ′ \bar z'_{\xi} zˉξ′
- 损失为:
L θ , ξ = ∥ q ˉ θ ( z θ ) − z ˉ ξ ′ ∥ 2 L_{\theta,\xi}=\left\|\bar q_{\theta}(z_{\theta})-\bar z'_{\xi}\right\|_2 Lθ,ξ=∥∥qˉθ(zθ)−zˉξ′∥∥2 - 使损失增强对称, u ′ u' u′增强提供给了在线网络, u u u提供给了目标网络,重新计算损失得到 L θ , ξ ′ L'_{\theta,\xi} Lθ,ξ′
- 最后的损失为: L θ , ξ B Y O L = L θ , ξ ′ + L θ , ξ L^{BYOL}_{\theta,\xi}=L'_{\theta,\xi}+L_{\theta,\xi} Lθ,ξBYOL=Lθ,ξ′+Lθ,ξ
只有在线网络更新来最小化损失,将目标网络的参数更新为在线网络的指数移动平均:
ξ
<
—
τ
ξ
+
(
1
−
τ
)
θ
\xi<—\tau\xi+(1-\tau)\theta
ξ<—τξ+(1−τ)θ
在本文的实验中,
τ
=
0.99
\tau=0.99
τ=0.99,是目标衰减率。
对于音频数据,输入至网络的是一秒的对数梅尔。
3.2 BYOL-A增强
3.2.1 正则化前后
对样本进行增强前和增强后的归一化处理。预归一化是使用整个数据集的统计信息完成的,而后归一化是使用当前批处理的统计信息完成的。
3.2.2 mixup
mixup的主要作用就是区分前景和背景。
随机选择的当前输入和过去输入以小比例混合。过去的输入作为背景音,它帮助网络只学习前景声学事件的表征。
声学特征是对数尺度的,在mixup中,先被转换为线性尺度,再被转换为对数尺度。
x
ˉ
i
=
l
o
g
(
1
−
λ
)
e
x
p
(
x
i
)
+
λ
e
x
p
(
x
k
)
\bar x_{i}=log(1-\lambda)exp(x_{i})+\lambda exp(x_{k})
xˉi=log(1−λ)exp(xi)+λexp(xk)
x
k
x_{k}
xk是从存储库中随机选择的一个样本,
λ
\lambda
λ为(0,0.4)的随机采样。
3.2.3 RRC(random resize crop)
一般应用于图像中,现应用于音频的梅尔谱图。它可以被认为是音高变换和时间延伸的近似。
先对对数梅尔谱随机抽样,给定一些频率F和时间T,crop的大小随机抽样为:
F
C
=
[
m
i
n
(
U
(
h
1
,
h
2
)
,
1.0
)
×
F
]
F_{C}=[min(U(h_{1},h_{2}),1.0)\times F]
FC=[min(U(h1,h2),1.0)×F]
T
C
=
[
U
(
w
1
,
w
2
)
×
T
]
T_{C}=[U(w_{1},w_{2})\times T]
TC=[U(w1,w2)×T]
h
1
,
h
2
h_{1},h_{2}
h1,h2和
w
1
,
w
2
w_{1},w_{2}
w1,w2的数值都为0.6和1.5,意味着新的crop区域可能在原始谱图的边界之外,可由0来填充。
3.2.4 高斯噪声
将训练数据和从正态分布采样的噪声进行插值。
3.3 额外的增强
3.3.1 韵律扩增
当对波形应用直接的基音变换和持续时间缩放时,可以获得更好的性能和鲁棒性。为了让韵律变化不影响说话人的身份,用Praat Tolkit实现此增强,直接在波形中进行,在BYOL-A之前进行扩充。
3.3.2 外部噪声
使用了Chime-4 challenge的噪声进行了噪声增强。