论文阅读与总结
文章平均质量分 86
ウルトラマン.
怕什么真理无穷,进一寸有一寸的欢喜
展开
-
读《JOINT AND ADVERSARIAL TRAINING WITH ASR FOR EXPRESSIVE SPEECH SYNTHESIS》
Abstract风格建模是表达性语音合成中的一个重要问题。在现有的无监督方法中,样式编码器从参考音频中提取潜在的表示作为样式信息。然而,从风格编码器中提取的风格信息会纠缠一些内容信息,这将导致与实际输入内容冲突,从而影响合成语音,也就是风格泄露问题。在本研究中,我们提出通过将文本到语音(TTS)模型和自动语音识别(ASR)模型与共享层网络相结合进行联合训练,并使用ASR对抗性训练来消除风格信息中的内容信息,从而缓解纠缠问题。同时,我们提出了一种自适应对抗权重学习策略来防止模型崩溃。使用单词错误率(WER)原创 2022-05-15 20:44:25 · 504 阅读 · 0 评论 -
读《EMOQ-TTS: EMOTION INTENSITY QUANTIZATION FOR FINE-GRAINED CONTROLLABLE EMOTIONAL TEXT-TO-SPEECH》
0 Abstract虽然近年来文本到语音(TTS)的研究取得了显著进展,但仍局限于情感语音合成。为了产生情感话语,大多数作品都利用了从情感标签或参考音频中提取的情感信息。然而,由于话语层面的情绪条件,它们导致了单调的情绪表达。在本文中,我们提出了EmoQ-TTS,它通过调节具有细粒度情绪强度的音素级情绪信息来合成具有表现力的情绪言语。在这里,情感信息的强度是通过基于距离的强度量化来表示的,不需要人为标记。我们也可以通过人工调节强度标签来控制合成语音的情绪表达。实验结果表明,EmoQ-TTS在情感表现力和可原创 2022-05-07 19:40:50 · 2086 阅读 · 3 评论 -
读《STRENGTHNET: DEEP LEARNING-BASED EMOTION STRENGTH ASSESSMENT FOR EMOTIONAL SPEECH SYNTHESIS》
从客观角度来说,情感信息难以被标记和量化,大多数方法不能准确衡量同一类情感语音之间的强弱差异,多数数据集只有根据情绪分类的粗粒度标签,直接利用标签信息参与训练往往会导致合成情感语音的风格较为平均,表现力相对较差这篇文章的目的就是在于增强文本情感的蕴含程度,文章的代码还提供了ESD数据外文语音的强度信息,便于训练。Abstract近年来,情感语音合成技术取得了令人瞩目的成绩。利用情感属性排序函数得到的情感强度描述,可以灵活地控制合成语音的情感强度。然而,针对特定数据训练的排序函数泛化能力较差,限制了其原创 2022-04-29 10:42:46 · 496 阅读 · 0 评论 -
读《MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH SYNTHESIS WITH SINGLE-SPEAKER SINGLE-STYLE TRAINING DATA》
概要在现有的跨说话人风格转换任务中,需要具有多风格录音的源说话人为目标说话人提供风格。然而,一个人很难表达所有预期的风格。本文提出了一种更通用的任务,即通过组合来自多个说话人语料库的任何风格和音色来产生表达性语音,其中每个说话人都有一个独特的风格。介绍尽管TTS在许多场景中都得到了成功的应用,但如何根据不同的说话风格和音色,创建富有表现力的合成语音,是更好的用户体验所需要的。要创建一个能够合成各种表达性语音的TTS系统,一个简单的方法是用一个带有人工标记[7,8,9,10,11]的数据库来训练TTS原创 2022-04-26 14:22:13 · 3107 阅读 · 0 评论 -
读《TOWARDS EXPRESSIVE SPEAKING STYLE MODELLING WITH HIERARCHICAL CONTEXT INFORMATION FOR MANDARIN》
两种基于层次语境信息的汉语语音合成表达风格建模方法HIERARCHICAL CONTEXT INFORMATIONAbstract以往关于表达性语音合成的研究主要集中在当前句current sentence。由于忽略了相邻句子的语境,导致同一篇文章的说话风格呆板,缺乏言语变化。在本文中,我们提出了一个分层的框架来从语境建模说话风格。本文提出了一种基于层次结构的语境编码器,该编码器考虑了语境中的结构关系,包括短语间关系和句子间关系,以探索更广泛的语境信息。此外,为了鼓励编码器更好地学习风格表示,我们原创 2022-04-24 11:09:06 · 2934 阅读 · 0 评论 -
读《PROSOSPEECH: ENHANCING PROSODY WITH QUANTIZED VECTOR PRE-TRAINING IN TEXT-TO-SPEECH》
当下韵律建模存在的问题:1 提取的基音pitch信息存在误差,导致韵律合成出现问题2 对韵律生成的相关要素 如基频 时长 能量等相互依存(dependent on each other)共同产生了韵律相关的特征3 韵律信息较高的可变性和高质量数据数目较少 导致不能完全学习韵律相关特征(can not fully shaped)为了解决这些问题,本文提出了ProsoSeech,使用在大规模未配对和低质量文本和语音数据上预训练的量化潜在向量来增强韵律。具体来说,我们首先介绍了一种词级(word le原创 2022-04-24 11:03:21 · 2710 阅读 · 0 评论 -
语音合成综述——亚洲微软谭旭《A Survey on Neural Speech Synthesis》上篇
受老师关怀、同学帮助,研一磕磕绊绊也算过去了,回过头来总结一下这一年入门不知道入没入进去的语音合成,正好从这篇大佬的综述理一理脉络,也算是研一的一个总结吧。论文的结构框架图论文从两个角度去总结这些年TTS语音合成的发展史,key components和advanced topic,因为文章很长,且我的知识储备并不能覆盖所有的模型,所以我会按照我的进度去总结文章的上下两个部分(Sec2/Sec3),如有疏漏,请见谅。1.先介绍TTS的合成发展史1、Articulatory Synthesis最理想的原创 2021-08-05 14:29:21 · 2773 阅读 · 1 评论 -
使用Sbert预训练的TTS模型《Expressive Text-to-Speech using Style Tag》
0)在这一个多月的论文阅读和代码复现的过程中,大多数论文都是从Mel频谱下手获得更解离的、更具有解释性的信息,如pitch,speaker ID和emotion等,但是从文本中获取信息的只占少部分,最近看到一篇关于BERT预训练的TTS论文,所以在这里做一下记录。1)论文照例先阐述一下当前研究方向的一些缺点①利用风格分类标签如感情标签等,但是由于只能预定义样式,所以表达多样性较差②使用参考音频提取特征作风格输入,这样虽然不需要标记,但是合成的音频时间长且不直观,解释性差。2)然后文章提出style原创 2021-05-05 16:00:07 · 1257 阅读 · 0 评论 -
淡黄的长裙~~读《Mellotron: Multispeaker Expressive Voice Synthesis by Conditioning on Rhythm...》有感
最近看了一篇2021年的新文章叫做《Expressive Neural Voice Cloning》,期间在Mellotron的基础上作了一些改进达到了不错的效果,所以从Mellotron看起,认真研究一下。首先摘要部分就介绍了Mellotron是基于Tacotron2+GST(感觉老生常谈了),可以从音频中明确调节rhythm和continuous pitch contours,从而产生多种不同风格的声音甚至是从未在训练集中出现训练而产生的歌声。并且不需要pitch和text强对齐也可以学习到align原创 2021-04-23 21:53:01 · 222 阅读 · 0 评论 -
Baidu Expressive TTS《Multi-reference Tacotron by Intercross Training for Style Disentangling...》
今天照例总结回顾一下看过的一篇论文,来自百度2019年的《Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis》首先说一下当前Expressive TTS的研究背景问题,其一就是过于复杂的风格表示像感情和韵律信息等无法有一个较为客观的衡量标准,也就无法进行明确的监督训练。另一个就是当前的基础模型解耦出的特征信息独立性不强,或者语音特征被原创 2021-04-18 20:27:58 · 348 阅读 · 0 评论 -
Expressive TTS 相关论文阶段性总结
Expressive TTS 相关论文阶段性总结原创 2021-04-11 15:34:06 · 952 阅读 · 5 评论