语音处理学习感悟汇总

引言

微笑为了毕设,电脑已经被我写的代码宕机若干次了,还是我老妹的电脑,4GB x64位。等开学我自己2GBx32位不知道我的电脑会被我虐成怎样。

简单说大部分暑假的历程是这样的

外文翻译(中国人在国外发布的论文)

查看要求的10篇中文文献2篇英文文献---然后写文献综述,结果一个都写不出来(模糊有高斯混合模型,STRAIGHT算法,文语转换,语音参数,音量,音高,音色,时长,语音情感参数,时域,频域,包络,基频,过零率)

果断的我下载了matlab开始百度测试使用--用各个菜鸟网站学习,会了基础的,学会了怎么加载工具(用我的C基础就是加载一些函数库)

我去百度,官网,github下载我需要的 miditoolbox     voicebox 以及ttsbox 然后放到toolbox文件夹里面,设置增加文件以及子目录作为路径

很好基础ok

首先

因为我是歌词到歌声的转换,我先下载一个MIDI文件,然后学调用读取midi文件,播放midi文件,同理学调用读取存储播放wav文件。学习使用调用tts

其次

接着先研究了一下wav和midi的简单数据结构。以及用matlab读取出来的字段的列值,还没有完全参透。有个模糊概念

接着

(分帧很重要,即分窗,即波形切成多段进行波形分析,不难电脑宕机很容易)开始学习时域频域转换,得到频谱包络,网上有利用傅立叶的算法。而后根据文献知道幅值和基本频率根据采样点和采样频率的关系,知道了时域-频域-能量构成的三维图形的意思。但是对于利用一些百度到的代码获取的包络由于细节不一样,有的参数提取不一样,造成了包络图形有差异,比如幅度-频率比例采取不一样。傅立叶获得的是复数。

而后

2017-03-06更新:下面我直接把波形给弄进去然后宕机的。在经过学校的学习和阅读更多基础文献以后,知道原来f0-基频-基音-音调(Hz) 和sp和ap这些中一般用sp转换成一些东西才来进行高斯各种处理。嗯。后面的内容直接把波形放进去的是标准错误典范 【很好的基础只是网站分享,还有图片哦!!!链接 http://bideyuanli.com 】
获得一些高斯混合模型的源码,我直接把波形放进去,没有分帧电脑就宕机了,我用简单数据放进去,到一定程度就会出现协方差错误。我就暂时随便弄个错误捕捉结束这个函数迭代。改变方向,我有看到获取MFCC频谱参数的源码,利用源码,取波形的一段放进去,结果发现出来的参数只有一部分由数值,还有一些不定量数据(这应该我目前不知道怎么处理)。

转而

我决定不写宕机代码,尽量用别人的有各种细节或源。我发现语音合成百度文库里面有繁体的门(matlab)系列文档,开始学习。

里面有基本频率到音高的转换(在这个之前我知道midi的pitch(NMAT)可以获得音高,midi2hz(pitch(NMAT))可以获取midi基本频率)有公式,音量(幅值法,而大部分利用主观音量曲线(幅值-频率))

还有其他等待学习



  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值