Unsupervised Speech Decomposition via Triple Information Bottleneck

最新推荐文章于 2024-09-03 09:11:55 发布

林林宋

最新推荐文章于 2024-09-03 09:11:55 发布

阅读量701

点赞数 2

分类专栏： paper笔记

原文链接：https://xueshu.baidu.com/usercenter/paper/show?paperid=174k0x90bg6x0040w8420gb011273921

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

本文介绍了SPEECHSPLIT模型，该模型旨在从语音中独立解耦出音调、节奏、音质和内容四个组成部分。通过使用encoder-decoder结构和随机重采样技术，研究发现不同通道可以分别捕获不同类型的信息。实验结果显示，模型能有效进行语音风格转换，并在主观评价中表现出色。此外，还讨论了基频包络与韵律的区别，并对比了不同转换任务的难度。

摘要由CSDN通过智能技术生成

文章目录

作者：Kaizhi Qian，Yang Zhang
会议：2020 ICML
单位：IBM
code link

abstract

提出SPEECHSPLIT的结构，可以从语音中解耦出timbre, pitch，rhythm，content四个部分。

1. introduction

speaker identity不能作为pitch和rhythm的代表，因为重叠的信息非常有限。content信息来源于文本转录，rhythm信息也依赖于转录的文本，而对于低资源的数据，是否有不需要文本或者其他带有other info label的方式解耦出语音中的成分？

SPEECHSPLIT使用encoder-decoder的结构，包括三个encoder channels。作者认为成功在于：（1）输出维度的限制，过滤了其他无效的信息；（2）时间维度随机采样引入噪声的帮助。作者发现，不同的channel可以传递不同的信息（content，rhythm， pitch），从而实现信息解耦。

BN不仅可以用于VC，也可以用于其他的style transfer的任务。在BN存在的情况下，神经网络会优先通过其他地方没有的信息。

2. Related Work

Rhythm：每个字的语速
pitch：与其他信息耦合在一起，比如包含了rhythm的信息，voice/unvoice的信息是和字相关的；包含了说话人的信息，比如男/女基频高低不同-----可以通过norm去除。
Timbre：说话人相关的特征，与共振峰频率有关，共振峰频率是声道中的共振频率成分。在光谱图中，共振峰显示为光谱包络的显著频率成分。在图1中，声谱图上的矩形和箭头突出了三个共振峰。从图中可以看出，图上的共振峰频率范围较高，说明声音较亮;底部频谱图有一个较低的共振峰频率范围，表明一个低沉的声音。
content：与说话人无关，只和txt有关系，它们倾向于聚集在一起，远离最低的共振峰

4. SPEECHSPLIT

在这里插入图片描述
RR：random resampling，具体是：（1）语音长度的随机裁剪，（2）时间维度的放缩
假定模型各个部分是binding的，然后才有下边的推论：

对于 $E_f$ ，本身输入的picth是根据所有说话人的mean/std归一之后的，韵律信息已经有损（缺一个角），通过RR过程丢失更多的韵律信息；
timbre认为是speaker_emb；
$E_r$ 中有所有的韵律信息，他不知道该丢弃那一部分信息，但是其他的encoder输出没有韵律，因此 $E_r$ 会被迫丢掉韵律以外的信息；
因为 $E_f$ 中没有content信息，因此 $E_c$ 必须编码所有的content信息；
PS：疑问： $E_c$ 中没有韵律信息不假，但是是否编码了完整的content信息，而不需要 $E_r$ 补充？？if it work in practice?
韵律和基频包络具体还有什么区别？？

experiments

BN测试准则：去掉其中一个encoder，输出中应该没有对应的成分。在满足要求的模型中，选择训练误差最小的when the input to one of the en- coders or the speaker embedding is set to zero, the output reconstruction should not contain the corresponding information.