![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音合成
文章平均质量分 86
BarbaraChow
关注语音 & 语言
展开
-
语音质量评价方法之MOS
在语音增强、语音合成、语音转换、声音转换、语音克隆、语音修复等等领域,常常要对输出的语音进行评价。对语音的质量评价一般关注两个方面,即主观评价和客观评价。主观评价就是人凭借听觉感受对语音进行打分,客观评价比较广泛,有的是通过计算输出语音与目标语音之间的声学参数之间的差异来衡量输出语音的质量;有的是依靠仪器测试响度、频率响应、灵敏度等指标;有的依靠模型和算法,模拟人工打分。注:这些评价方法并不都是相互独立的,如:F0 MSE、F0RMSE是计算最小均方误差和最小均方根误差。有一定的相似性。原创 2024-06-17 16:27:21 · 875 阅读 · 0 评论 -
谱包络之pysptk和pyworld库
一个是mel广义谱表示,转换成MLSA声码器能够合成的语音参数,就能直接合成语音;一个是对语音频谱包络进行编码,需要再解码成普参数再合成语音。原创 2023-08-11 21:49:00 · 492 阅读 · 0 评论 -
基频建模方法总结
语音合成领域需要对基频进行建模,具体到文语转换TTS、语音转换VC、情感语音转换EVC领域等。原创 2023-05-03 22:36:02 · 738 阅读 · 0 评论 -
基频微扰与振幅微扰Jitter and shimmer
之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。原创 2023-04-21 11:50:32 · 1881 阅读 · 0 评论 -
MELP声码器
这是一款比较老的声码器,是美国1998年指定的美国国防部DoD电信和系统标准,该算法由TI公司和ASP公司联合推出。原创 2023-03-14 13:53:01 · 1458 阅读 · 0 评论 -
AHOcoder声码器
AHOcoder 语音声码器由 Daniel Erro 在巴斯克大学的 AHOLAB 信号处理实验室研发,专门为统计参数语音处理设计的语音编解码器,它可将语音信号转换为可处理的具有良好统计建模特性的向量。AHOcoder 语音声码器的设计思想来源于谐波加噪声模型(Harmonics plus Noise Model, HNM),该模型将语音信号分解为低频段的谐波部分和高频段的噪声部分,但由于谐波数量会随基频的变化而变化。导致 HNM 特性不能直接用于统计系统。原创 2023-01-16 17:11:16 · 874 阅读 · 0 评论 -
Wavenet原理学习
语音识别模型WaveNet介绍简介: WaveNet是一个端到端的TTS(text to speech)模型,一种原始音频波形的生成模型。来源:处理图像模型PixelRNN 和 PixelCNN,不仅可以一次生成一个像素,而且一次生成一个颜色通道,每个图像需要数千个预测,因此可以生成复杂的自然图像。这激发了我们将二维PixelNets改编为一维WaveNet,声音元素是一个点一个点生成的。在WaveNet中最重要的概念就是带洞因果卷积(dialated causal convolutions)了。原创 2020-09-18 21:36:02 · 4245 阅读 · 0 评论 -
语音合成技术入门之Tacotron
学习李宏毅课程。输入文字,输出语音。原创 2022-11-23 22:48:02 · 3645 阅读 · 0 评论 -
一文看懂Griffin_lim声码器
Griffin_lim算法详解声码器声码器是语音分析和合成的一一种工具,目前主要用来将将声学参数转换成语音波形,即合成。常见的传统声码器有 WORLD, STRAIGHT及其变种等; 还有目前较火的神经网络声码器,如WaveNet,一种可训练的基于深度神经网络的声码器,可生成高质量的语音波形。GL算法Griffin_lim声码器是将语谱图转回波形的一种算法。主要思想为已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形。因为常见的特征MEL-spectrum转载 2022-04-08 18:01:36 · 1971 阅读 · 0 评论 -
语音合成学习
语音合成语音合成技术大体可分为以下三个部分:文语合成(TTS,Text to Speech)语音转换(VC, Voice Conversion)语音生成(VG,Voice Generation)技术分类常见分为两类:波形拼接法、参数法(声码器)。1. 波形拼接法首先,要准备好大量的语音,这些音都是又基本的单位拼接成的(基本单位如音节、音素等),然后从已准备好的声音中,抽取出来合成目标声音。优点:使用原始语音波形替代参数,合成的语音清晰自然,质量相比于参数合成方法要好。PSOLA(pi转载 2021-12-19 12:31:04 · 4837 阅读 · 0 评论 -
tacotron2 & 注意力机制 & self-attention学习
我们在机器翻译、语音识别、语音合成、语音转换等任务中,常常需要对序列数据进行处理,传统的方法不但繁琐且效果有限,目前常见的端到端seq2seq方法很值得学习。1. 序列到序列序列到序列最早应用于机器翻译领域,后面推广到语音合成等领域。该模型是针对输入和输出序列长度不相同的情况下,即建模两种不同域的映射关系。序列到序列包含编码器(encoder)和解码器(decoder)两个部分。编码器和解码器常用LSTM等网络构成,将一个域的序列转换到另一个域的序列。编码器网络负责接收源句子的embedding.转载 2021-12-14 11:57:35 · 778 阅读 · 0 评论 -
TTS之训练vocoder
TTS之训练vocoder1.先将代码下载到服务器,并安装git clone https://github.com/mozilla/TTSpip install -e .注:pip install e . 与setup.py关系:Editable—pip-----------------setup.pyyes---------pip install -e . —python setup.py developno----------pip install . ------ python se原创 2021-06-15 17:09:55 · 1032 阅读 · 4 评论 -
PSOLA基音同步叠加算法
PSOLA(Pitch Synchronous Overlap Add)算法语音合成:基于波形合成(波形编码合成、波形编辑合成),基于参数合成,基于规则合成在基于规则合成中,最常见的就是PSOLA算法。基音同步叠加法最初是在20世纪80年代由F.Charpentier和E.Moulines等提出,是用于语音编辑合成语音技术中对合成语音的韵律进行修改的一种算法。基音同步叠加技术的实现可分为三种方式,分别为时域基音同步叠加TD-PSOLA、频域基音同步叠加FD-PSOLA和线性预测基音同步叠加LP-PSO原创 2021-04-19 17:40:14 · 3928 阅读 · 0 评论