时间:2019
作者:Marco Pasini
abstract
使用GAN网络进行非平行数据的VC变换,而且可以用于音乐上的风格迁移。
3. Model
对于
M
×
t
M\times t
M×t的语音,固定为
M
×
L
M\times L
M×L的片段(L<t),然后每次送入
M
×
L
/
2
M\times L/2
M×L/2的片段给生成器,生成等长的片段,再给判别器。最后把生成的进行拼接。
3.2 Adversarial Loss
- hinge loss:生成器生成,判别器区分生成的还是真实的
3.3 TraVeL Loss
-
保证转换前后内容一致:通过cosine similarity and euclidean distance保证转换vector的角度和幅度和source一致;
-
cosine_similarity
-
siamese margin-based contrastive loss
3.4 Identity Mapping
尽管有3.3的限制,但是还是有一些文本信息没有保留下来,