Unsupervised Speech Decomposition via Triple Information Bottleneck

本文介绍了SPEECHSPLIT模型,该模型旨在从语音中独立解耦出音调、节奏、音质和内容四个组成部分。通过使用encoder-decoder结构和随机重采样技术,研究发现不同通道可以分别捕获不同类型的信息。实验结果显示,模型能有效进行语音风格转换,并在主观评价中表现出色。此外,还讨论了基频包络与韵律的区别,并对比了不同转换任务的难度。
摘要由CSDN通过智能技术生成


作者:Kaizhi Qian,Yang Zhang
会议:2020 ICML
单位:IBM
code link

abstract

提出SPEECHSPLIT的结构,可以从语音中解耦出timbre, pitch,rhythm,content四个部分。

1. introduction

speaker identity不能作为pitch和rhythm的代表,因为重叠的信息非常有限。content信息来源于文本转录,rhythm信息也依赖于转录的文本,而对于低资源的数据,是否有不需要文本或者其他带有other info label的方式解耦出语音中的成分?

SPEECHSPLIT使用encoder-decoder的结构,包括三个encoder channels。作者认为成功在于:(1)输出维度的限制,过滤了其他无效的信息;(2)时间维度随机采样引入噪声的帮助。作者发现,不同的channel可以传递不同的信息(content,rhythm, pitch),从而实现信息解耦。

BN不仅可以用于VC,也可以用于其他的style transfer的任务。在BN存在的情况下,神经网络会优先通过其他地方没有的信息。

2. Related Work

  • Rhythm:每个字的语速
  • pitch:与其他信息耦合在一起,比如包含了rhythm的信息,voice/unvoice的信息是和字相关的;包含了说话人的信息,比如男/女基频高低不同-----可以通过norm去除。
  • Timbre:说话人相关的特征,与共振峰频率有关,共振峰频率是声道中的共振频率成分。在光谱图中,共振峰显示为光谱包络的显著频率成分。在图1中,声谱图上的矩形和箭头突出了三个共振峰。从图中可以看出,图上的共振峰频率范围较高,说明声音较亮;底部频谱图有一个较低的共振峰频率范围,表明一个低沉的声音。
  • content:与说话人无关,只和txt有关系,它们倾向于聚集在一起,远离最低的共振峰

4. SPEECHSPLIT

在这里插入图片描述
RR:random resampling,具体是:(1)语音长度的随机裁剪,(2)时间维度的放缩
假定模型各个部分是binding的,然后才有下边的推论:

  • 对于 E f E_f Ef,本身输入的picth是根据所有说话人的mean/std归一之后的,韵律信息已经有损(缺一个角),通过RR过程丢失更多的韵律信息;
  • timbre认为是speaker_emb;
  • E r E_r Er中有所有的韵律信息,他不知道该丢弃那一部分信息,但是其他的encoder输出没有韵律,因此 E r E_r Er会被迫丢掉韵律以外的信息;
  • 因为 E f E_f Ef中没有content信息,因此 E c E_c Ec必须编码所有的content信息;
  • PS:疑问: E c E_c Ec中没有韵律信息不假,但是是否编码了完整的content信息,而不需要 E r E_r Er补充??if it work in practice?
  • 韵律和基频包络具体还有什么区别??

experiments

  • BN测试准则:去掉其中一个encoder,输出中应该没有对应的成分。在满足要求的模型中,选择训练误差最小的when the input to one of the en- coders or the speaker embedding is set to zero, the output reconstruction should not contain the corresponding information.

Conversion Visualization

在这里插入图片描述
使用一对平行数据进行测试,每次将source的一个特征替换为target。

Subjective Evaluation

在这里插入图片描述

依然是平行数据作为测试,测试样例包括:source utt, AUTOVC的结果,7个转换结果(见下表)
受测者要求选择和那个ref utt(source utt & target utt)的韵律更像,然后计算受测者选择target utt为更像的比例,rate更高,模型效果更好。

在这里插入图片描述
table 2是语音质量的评测:(1)pitch转换的结果比timbre和rhythm的更高,说明timbre和rhythm的建模难度更大;(2)转换种类增加,得分降低,说明任务难度加大;

封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值