![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
speaker embedding
文章平均质量分 91
JanettaC
这个作者很懒,什么都没留下…
展开
-
《One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normaliz》
任务 其他模型的局限: 只能将声音转换成训练数据中出现的说话人, 缩小了VC的使用范围。 任务: 源说话人和目标说话人可以不出现在训练数据中, 只用一个样本就能进行语音转换。 实现方法 实例规范化说话人和说话内容。 简介 一般VC的目的是将语音信号的语言内容部分保留, 将非语言信息进行转换。非语言信息一般指的是说话人身份, 口音,发音等部分。 VC对一些下游的任务(如多说话人的语音合成, 表达性语音合成, 语音增强, 发音正确)来说是非常有用的。 之前的工作可以分为两种类型:监督和无监督。 监督的语音转换.原创 2021-03-16 17:20:15 · 399 阅读 · 0 评论 -
H-vector: 论文阅读
任务 生成utterance-level embedding 做法 将音频语句看成一个文档, 可以被分成若干段和帧(看成是文档中的句子和词语)。 先得到segments representation后在综合起来得到utterance representation。 Hierarchical attention Frame-level encoder and Attention 假设输入的Mel谱被分为N段:S∈RMN∗L={S1,S2,...,SN}S \in \mathcal R^{MN*L}=\{S.原创 2021-03-13 14:28:51 · 157 阅读 · 0 评论