男女声语音转换

男女声特点

(此部分转载自https://blog.csdn.net/u011389706/article/details/78965233)

  1. 男女声基本区别
    男女声主要区别在于男女声基音频率(pitch frequency)的高低。一般女声的音调比男声的音调高,这种不同主要是反应在基音频率(pitch frequency)上。
    在这里插入图片描述
    一般女声的基音频率高于男声,常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱(cepstrum)。
    在这里插入图片描述
    声音信号具有短时平稳性,我们认为在10~50ms的数据长度上声音信号是平稳信号,所以可以分帧然后用平稳信号的处理方法进行处理。首先就是分帧操作(这里取40ms帧长,20ms帧移),加窗后求倒谱,根据倒谱便可以求解出基音频率。整个系统流程图如下:
    在这里插入图片描述

GMM模型简介

GMM模型定义
在这里插入图片描述
详细内容有专门博客。

基于GMM语音转换

1.基本原理

具体推导可参考:GMM语音转换学习

在这里插入图片描述

具体实现参考sproket工具。算法具体流程如下:

在这里插入图片描述

GMM模型主要用来转换mcep参数,F0参数用一个单高斯模型转换,ap参数不变。
Global variance(GV)特征是后来针对GMM存在过平滑问题的改进。需求mcep参数方差的均值和方差。对转换后的mcep方差的分布做修正,使其更接近目标语音mcep方差的分布。

2.方法框架图
在这里插入图片描述

3.特征参数提取,利用world声码器

在这里插入图片描述

实验及分析

1.数据准备
在这里插入图片描述
2.参数设置
在这里插入图片描述
设置合适的F0搜索范围,能够有效减少后续转换时F0提取错误,如半F0、双F0的情况。
在这里插入图片描述

设置合适的归一化功率门限值,可有效去除静音帧,从而提升时间对齐准确率。(npow)
在这里插入图片描述

  1. 实验结果
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 5
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值