【S2ST】TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encodin

ABSTRACT

传统的方法需要parallel的语音训练,这个工作中引入了TranSentence,不需要parallel的语言数据。为了摆脱对平行语料的依赖,应用了与语言无关的句子级别的语义信息。尽管训练只用了单语言数据,推理的时候可以产生target language的语音。同样的也在多语言speech-to-speech场景下做了实验,超过了之前的方法。

Introduction

S2ST的好处:

  • 可以保留韵律等副语言信息
  • 减少误差累积

传统方案分为两种路线,一种是直接预测频谱,另一种是预测离散单元,接unit vocoder。但这些方法都需要parallel的speech的数据训练。这篇论文中,引入了不需要parallel的speech的方法。首先,一个语言无关的speech encoder用于提取语言无关的句子级别的语义信息。encoder是预训练得到的,应用了机器翻译,speech-to-text的翻译和ASR。训练过程中,仅使用目标语言的数据。首先,应用训练好的语言无关的speech encoder,将target language speech 编码到语言无关句子级别的语义空间。接着模型重构原target language speech。由于语言无关的speech encoder可以将不同语言的speech映射到同一空间,在推理过程中,即可以实现,speech-to-speech translation.

contributuons总结如下:

  • 引入了TranSentence,不依赖parallel数据
  • S2ST中第一个用sentence level语义信息的工作
  • 提出了如何用speech embedding扩展成语音
  • 文章提出的方法超过了之前不用parallel数据的方法
  • audio samples和代码:demo

Related Work

Speech-to-unit translation

应用hubert提取unit, unit hifigan重构语音。同时也用了unit reduction策略提高翻译质量。因为这种方法需要预测units的duration,因此整合了一个duration预测模块。除此之外本文的方法不依赖于文本标签。出于这个考虑,我们应用了S2UT作为baseline。

Language-agnostic sentence embeddings

句子级别的embedding在文本领域被广泛研究。基于这些研究,句子级别的embedding被引入语音领域,从而挖掘成对语言数据。SpeechMatrix将语言无关的句子级别embedding引入语音领域,LASER。在训练过程中,他们利用语音 - 文本对数据和语音 - 文本翻译对数据,这些数据比语言对语音数据更容易获得。 这种方法不仅引导语音编码器将语音和文本映射到统一的语义嵌入空间中,而且使我们能够在不依赖于语言并行语音数据的情况下对语音的含义进行编码。 我们在模型中采用这种预先训练的语音编码器作为与语言无关的句子级语音编码器,使我们能够在没有语言并行语音数据的情况下训练 S2ST 系统。

METHOD

Language-agnostic sentence-level speech encoder

我们采用 SpeechMatrix [17] 中的预训练语音编码器作为我们模型的与语言无关的句子级语音编码器。 语音编码器基于 XLS-R [18, 19] 架构。 输入语音通过语音编码器进行编码,编码器输出被最大池化为固定大小的表示以捕获语音的含义。 因此,这种单向量语音嵌入包含语音的语义信息,与语言无关。

Feature expansion

我们的任务涉及从单向量语音嵌入预测较长的语音单元,这对解码器中计算注意力提出了挑战。 因此,我们的目标是通过语音嵌入的特征扩展来增强语音嵌入和语音单元之间的对齐,从而促进注意力模块的训练。 为了功能扩展,我们引入了语义编码器。 首先,我们将语音嵌入分为几个子嵌入。 结果,单向量语音嵌入被转换为由多个帧组成的表示。 随后,通过语义编码器细化语音子嵌入,以更好地捕获语义信息。

Discrete unit decoder

离散单元解码器是几层 Transformer ,并基于来自语义编码器的隐藏表示作为具有注意机制的上下文信息来预测单元。应用了label smoothing:
在这里插入图片描述
对于multilingual场景,decode时会引入一个跟语言相关的token.

EXPERIMENTS

Datasets

训练数据Common Voice 11,三种语言English (En), Spanish (Es), and French (Fr)。eval 用cvss-c。 采样率16000。

Training setup

在这里插入图片描述

Implementation details

language-agnostic sentence-level speech encoder用的speechmatrix里的。semantic encoder用了两层卷积,discrete unit decoder用了6层transformer.

Evaluation metric

ASR BLEU

RESULTS

Speech-to-speech translation without parallel speech data

与translatatotron 3相比。
在这里插入图片描述

Multilingual speech-to-speech translation

在这里插入图片描述

Similarity between speech embeddings

在这里插入图片描述
在这里插入图片描述

Ablation study

在这里插入图片描述

  • 28
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值