若干文章

bert

guide attention
Monotonic Attention
Location-awar attention

DCA

Fast Speech

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis 2018

在这里插入图片描述
就把情绪信息和说话人的信息,添加在embedding里,词嵌入,之后的decoder该怎么训还怎么训

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron 2018

在这里插入图片描述
增加了训练的输入,韵律的输入+说话人的输入+文字的输入

HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE SPEECH SYNTHESIS 2018

引入变分自动编码器 VAE ,从嘈杂的数据中提出潜在的特性。对于VAE网上讲的特别多,我最浅显的理解就是,我拿到了一些X,然后我要生成和X相似的数据,我假设有个公式 F(Z) = X,我现在的目的就是基于观测到的X,去反推隐藏的Z以及F(Z)的式子,要是可以的话,那我就可以生成无限个和X相似的X了。替换到语音的话,就是拿到语音,找到其背后的推手,然后再用这个推手去生成,这样就不愁可以控制了,我可以控制其隐藏的Z从而达到控制X的目的,但这个是不可以预估的,有惊喜。

Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis 20190404

百度的一篇,GST,之前的input只有文字,现在加入了一些声音信息,用了多头注意力,更加厉害。
在这里插入图片描述
风格由三个音素控制:说话人、情绪、韵律。有三百个不同的说话人;有喜怒哀乐等情绪;有新闻故事广播等不同韵律。

MULTI-REFERENCE NEURAL TTS STYLIZATION WITH ADVERSARIAL CYCLE CONSISTENCY 20191125

在这里插入图片描述
同时嵌入音频1和音频2,交叉起来更厉害

MELLOTRON: MULTISPEAKER EXPRESSIVE VOICE SYNTHESIS BY CONDITIONING ON RHYTHM, PITCH AND GLOBAL STYLE TOKENS 20191126

在标准的数据里弄,合成唱歌,一种显式变量:文本、说话者id、音高轮廓;一种是隐藏变量:节奏、GTS。
在这里插入图片描述
音高轮廓 用 Alain De Cheveigné and Hideki Kawahara, “Yin, a fun-damental frequency estimator for speech and music,” The Journal of the Acoustical Society of America, vol. 111, no. 4, pp. 1917–1930, 2002. 或者 Justin Salamon and Emilia Gómez, “Melody extraction from polyphonic music signals using pitch contour char- acteristics,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 6, pp. 1759–1770, 2012. 获取。

PROSODY TRANSFER IN NEURAL TEXT TO SPEECH USING GLOBAL PITCH AND LOUDNESS FEATURES 20191221

参考音频得韵律转移到合成音频,音高轮廓和RMS能量曲线 基本频率(F0)和能量(RMS)
在这里插入图片描述

USING VAES AND NORMALIZING FLOWS FOR ONE-SHOT TEXT-TO-SPEECH SYNTHESIS OF EXPRESSIVE SPEECH 20200217

可变自动编码器和Householder Flow
在这里插入图片描述

UNSUPERVISED STYLE AND CONTENT SEPARATION BY MINIMIZING MUTUAL INFORMATION FOR SPEECH SYNTHESIS 20200309

在这里插入图片描述
文本和风格的分离更加厉害

Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization在这里插入图片描述

本文提出了三个组成部分来解决此问题,方法是:(1)制定一个具有因子分解潜变量的条件生成模型;(2)使用数据增强来添加与说话者身份不相关并且在训练过程中已知其标签的噪声;以及( 3)使用对抗分解来改善解缠结。

对于提高要求,采用余弦相似度来计算两篇文章的相似度。余弦相似度是一种常用的文本相似度计算方法,它可以有效地避免向量长度对相似度计算的影响。 具体实现步骤如下: 1. 将两篇文章分别进行分词,得到每篇文章的单词列表。 2. 对于每个单词,使用哈希表记录其出现次数。 3. 对于每篇文章,将其单词列表转换成一个向量,向量的每个维度对应一个单词在哈希表中的出现次数。 4. 利用余弦相似度来计算两篇文章相似度。 下面是实现代码的示例: ```python import math def word_count(text): # 统计文本中每个单词的出现次数 counts = {} for word in text.split(): if word not in counts: counts[word] = 0 counts[word] += 1 return counts def vectorize(text, vocab): # 将文本转换成向量 vector = [0] * len(vocab) for word, count in word_count(text).items(): if word in vocab: vector[vocab[word]] = count return vector def cosine_similarity(vec1, vec2): # 计算向量的余弦相似度 dot_product = sum(x * y for x, y in zip(vec1, vec2)) magnitude = math.sqrt(sum(x**2 for x in vec1)) * math.sqrt(sum(x**2 for x in vec2)) if magnitude == 0: return 0 return dot_product / magnitude def text_similarity(text1, text2): # 计算文本相似度 vocab = {} for word_count in (word_count(text1), word_count(text2)): for word in word_count: if word not in vocab: vocab[word] = len(vocab) vec1 = vectorize(text1, vocab) vec2 = vectorize(text2, vocab) return cosine_similarity(vec1, vec2) ``` 对于测试数据,可以选择一些主题相似但表达方式不同的文章进行测试,比如两篇新闻报道、两篇论文摘要等。将这些文章进行分词和向量化后,可以使用余弦相似度计算它们之间的相似度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赫凯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值