语音处理学习感悟汇总

最新推荐文章于 2021-01-25 21:15:00 发布

Datrilla

最新推荐文章于 2021-01-25 21:15:00 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/u014646950/article/details/55046584

版权

引言

为了毕设，电脑已经被我写的代码宕机若干次了，还是我老妹的电脑，4GB x64位。等开学我自己2GBx32位不知道我的电脑会被我虐成怎样。

简单说大部分暑假的历程是这样的

外文翻译（中国人在国外发布的论文）

查看要求的10篇中文文献2篇英文文献---然后写文献综述，结果一个都写不出来（模糊有高斯混合模型，STRAIGHT算法，文语转换，语音参数，音量，音高，音色，时长，语音情感参数，时域，频域，包络，基频，过零率）

果断的我下载了matlab开始百度测试使用--用各个菜鸟网站学习，会了基础的，学会了怎么加载工具（用我的C基础就是加载一些函数库）

我去百度，官网，github下载我需要的 miditoolbox voicebox 以及ttsbox 然后放到toolbox文件夹里面，设置增加文件以及子目录作为路径

很好基础ok

首先

因为我是歌词到歌声的转换，我先下载一个MIDI文件，然后学调用读取midi文件，播放midi文件，同理学调用读取存储播放wav文件。学习使用调用tts

其次

接着先研究了一下wav和midi的简单数据结构。以及用matlab读取出来的字段的列值，还没有完全参透。有个模糊概念

接着

（分帧很重要，即分窗，即波形切成多段进行波形分析，不难电脑宕机很容易）开始学习时域频域转换，得到频谱包络，网上有利用傅立叶的算法。而后根据文献知道幅值和基本频率根据采样点和采样频率的关系，知道了时域-频域-能量构成的三维图形的意思。但是对于利用一些百度到的代码获取的包络由于细节不一样，有的参数提取不一样，造成了包络图形有差异，比如幅度-频率比例采取不一样。傅立叶获得的是复数。

而后

2017-03-06更新：下面我直接把波形给弄进去然后宕机的。在经过学校的学习和阅读更多基础文献以后，知道原来f0-基频-基音-音调(Hz) 和sp和ap这些中一般用sp转换成一些东西才来进行高斯各种处理。嗯。后面的内容直接把波形放进去的是标准错误典范【很好的基础只是网站分享，还有图片哦！！！链接 http://bideyuanli.com 】

获得一些高斯混合模型的源码，我直接把波形放进去，没有分帧电脑就宕机了，我用简单数据放进去，到一定程度就会出现协方差错误。我就暂时随便弄个错误捕捉结束这个函数迭代。改变方向，我有看到获取MFCC频谱参数的源码，利用源码，取波形的一段放进去，结果发现出来的参数只有一部分由数值，还有一些不定量数据（这应该我目前不知道怎么处理）。