会议: 2022 icassp投稿
单位: Nagoya,台湾国立,CMU
作者:Wen-Chin Huang, Hung-yi Lee, Tomoki Toda
abstract
S3PRL:self-supervised speech representation
各种S3PRL模型作为上游模型,提供speech representation,对比不同的S3PRL模型作为上游输入的结果,以及any-to-one,any-to-any任务,intra-lingual 和cross-lingual任务。
Implementation
三套模型框架
Simple:FC+2LSTM+linear
Simple-AR:simple model+AR
Taco2-AR:tacotron2—attention对齐
discussion
不同模型的对比
Simple-AR比simple的WER普遍下降,但是Taco2-AR的相似度增加,WER增大——增加模型复杂度,可以改善音色相似度,但是会损失WER。本文后边的比较使用的都是Taco2-AR。
跨语言任务对比
S3PRL模型都可以支持跨语言的任务,但是对于any2one任务,跨语言的WER比同语言的WER要低。
Any2any任务的WER和ASV分数都比Any2one的低,分析原因主要是:S3Rs解耦的内容信息中还有大量的说话人信息;另外一个原因是speaker encoder应该联合训练。
top systems的主观评价
- vq-wav2vec在intra-lingual & A2O任务的结果上,自然度、相似度得分最高;
ppgs方法对比
基于ppgs方法可以有更好的相似度,但是WER很高——supervision的方法确实对相似度有改善,可以更好的做content解耦,而目前的S3Rs做的还不够好。