【S2ST】TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encodin

最新推荐文章于 2024-09-07 15:41:21 发布

cxxx17

最新推荐文章于 2024-09-07 15:41:21 发布

阅读量616

点赞数 28

分类专栏： ST TTS学习笔记文章标签：语音识别语音合成人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42262721/article/details/138619235

版权

TTS学习笔记同时被 2 个专栏收录

26 篇文章 8 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encoding without Language-parallel Data

ABSTRACT
Introduction
Related Work
- Speech-to-unit translation
- Language-agnostic sentence embeddings
METHOD
EXPERIMENTS
RESULTS

ABSTRACT

传统的方法需要parallel的语音训练，这个工作中引入了TranSentence，不需要parallel的语言数据。为了摆脱对平行语料的依赖，应用了与语言无关的句子级别的语义信息。尽管训练只用了单语言数据，推理的时候可以产生target language的语音。同样的也在多语言speech-to-speech场景下做了实验，超过了之前的方法。

Introduction

S2ST的好处：

可以保留韵律等副语言信息
减少误差累积

传统方案分为两种路线，一种是直接预测频谱，另一种是预测离散单元，接unit vocoder。但这些方法都需要parallel的speech的数据训练。这篇论文中，引入了不需要parallel的speech的方法。首先，一个语言无关的speech encoder用于提取语言无关的句子级别的语义信息。encoder是预训练得到的，应用了机器翻译，speech-to-text的翻译和ASR。训练过程中，仅使用目标语言的数据。首先，应用训练好的语言无关的speech encoder，将target language speech 编码到语言无关句子级别的语义空间。接着模型重构原target language speech。由于语言无关的speech encoder可以将不同语言的speech映射到同一空间，在推理过程中，即可以实现，speech-to-speech translation.

contributuons总结如下：

引入了TranSentence，不依赖parallel数据
S2ST中第一个用sentence level语义信息的工作
提出了如何用speech embedding扩展成语音
文章提出的方法超过了之前不用parallel数据的方法
audio samples和代码：demo

Related Work

Speech-to-unit translation

应用hubert提取unit, unit hifigan重构语音。同时也用了unit reduction策略提高翻译质量。因为这种方法需要预测units的duration，因此整合了一个duration预测模块。除此之外本文的方法不依赖于文本标签。出于这个考虑，我们应用了S2UT作为baseline。

Language-agnostic sentence embeddings

句子级别的embedding在文本领域被广泛研究。基于这些研究，句子级别的embedding被引入语音领域，从而挖掘成对语言数据。SpeechMatrix将语言无关的句子级别embedding引入语音领域，LASER。在训练过程中，他们利用语音 - 文本对数据和语音 - 文本翻译对数据，这些数据比语言对语音数据更容易获得。这种方法不仅引导语音编码器将语音和文本映射到统一的语义嵌入空间中，而且使我们能够在不依赖于语言并行语音数据的情况下对语音的含义进行编码。我们在模型中采用这种预先训练的语音编码器作为与语言无关的句子级语音编码器，使我们能够在没有语言并行语音数据的情况下训练 S2ST 系统。

METHOD

Language-agnostic sentence-level speech encoder

我们采用 SpeechMatrix [17] 中的预训练语音编码器作为我们模型的与语言无关的句子级语音编码器。语音编码器基于 XLS-R [18, 19] 架构。输入语音通过语音编码器进行编码，编码器输出被最大池化为固定大小的表示以捕获语音的含义。因此，这种单向量语音嵌入包含语音的语义信息，与语言无关。

Feature expansion

我们的任务涉及从单向量语音嵌入预测较长的语音单元，这对解码器中计算注意力提出了挑战。因此，我们的目标是通过语音嵌入的特征扩展来增强语音嵌入和语音单元之间的对齐，从而促进注意力模块的训练。为了功能扩展，我们引入了语义编码器。首先，我们将语音嵌入分为几个子嵌入。结果，单向量语音嵌入被转换为由多个帧组成的表示。随后，通过语义编码器细化语音子嵌入，以更好地捕获语义信息。