语音识别
唐维康
这个作者很懒,什么都没留下…
展开
-
python绘制语谱图(手动实现)
1 原理分析在获取语谱图数据之前,我们需要先了解短时傅里叶变换。语音信号是典型的非平稳信号,但是由于其非平稳性由发声器官的物理运动过程而产生,这种过程是相对变换缓慢的,在10~30ms以内可以认为是平稳的。傅里叶分析时分析线性系统和平稳信号稳态特征的手段,而短时傅里叶分析,是用稳态分析方法处理非平稳信号的一种方法。假设语音波形时域信号为x(l)x(l)x(l),加窗分帧处理后得到的第nnn帧语音信号为xn(m)x_n(m)xn(m),那有:xn(m)=w(m)x(n+m),1⩽m⩽Nx_n(m)=原创 2020-12-20 13:20:07 · 6852 阅读 · 9 评论 -
语音共振峰的获取python
2 共振峰的获取2.1 倒谱法求共振峰流程如下:#mermaid-svg-OSRurQA7CLZuLbZe .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-OSRurQA7CLZuLbZe .label text{fill:#333}#mermaid-svg-OSRurQA7CLZuLbZe .node r原创 2020-11-28 14:42:46 · 5873 阅读 · 8 评论 -
基于MFCC系数的欧氏距离测量
基于MFCC系数的距离测量所需项目文件以及语料我放在了自己的github上了:基于MFCC系数的距离测量1 简介1.1 本地文档简介语料:包含本次实验所需要的语料Code:包含了本次实验的matlab代码pr3_3_2.m 主程序,计算两个语音之间的匹配比较mfcc_m.m 计算语音的MFCC特征mel_dist.m Mel距离,基于欧氏距离mfccDate.mat 提取的MFCC数据,24维photo 实验结果截图1.2 距离度量简介距离度量(Distance)用于衡量个原创 2020-06-30 10:04:52 · 882 阅读 · 3 评论 -
音频处理十:( mp3 与wav 格式的相互转换)
后面我就用latex撰写文章了,csdn只支持上传md,完整的文件代码在下面的链接完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48...原创 2020-03-28 15:10:37 · 345 阅读 · 0 评论 -
音频处理九:(参数估计)
后面我就用latex撰写文章了,csdn只支持上传md,完整的文件代码在下面的链接完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48...原创 2020-03-28 15:07:38 · 174 阅读 · 0 评论 -
音频处理八:(MFCC 的计算)
后面我就用latex撰写文章了,csdn只支持上传md,完整的文件代码在下面的链接完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48...原创 2020-03-28 15:02:47 · 452 阅读 · 0 评论 -
音频处理七:(极坐标转换)
程序设计七:极坐标转换一:需求分析 在数学中,极坐标系是一个二维坐标系统。该坐标系统中的点由一个夹角和一段相对中心点——极点(相当于我们较为熟知的直角坐标系中的原点)的距离来表示。极坐标系的应用领域十分广泛,包括数学、物理、工程、航海以及机器人领域。在两点间的关系用夹角和距离很容易表示时,极坐标系便显得尤为有用;而在平面直角坐标系中,这样的关系就只能使用三角函数来表示。对于很...原创 2020-03-28 14:43:55 · 501 阅读 · 0 评论 -
音频处理六:(音频的反FFT)
程序设计六:音频的反FFT一:需求分析 FFT变换是将信号从时域转换到频域,这样在时域复杂的信号转换到频域看起来就方便容易了很多。但有时候也需要将频域信号转换到时域,所以这时运用到IFFT变换。逆向快速傅里叶变换(IFFT)的计算原理是将频域(注意频域是复数)数据进行取共轭复数(虚部取反),然后再进行FFT变换,这样便将频域信号转换到时域。因为FFT变换的结果是复数,所以从...原创 2020-03-28 14:41:53 · 1565 阅读 · 0 评论 -
音频处理五:(音频的FFT计算)
程序设计五:音频的FFT计算完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48一:需求分析通过使用快速傅立叶变换来增加语音谐波的幅度,从而提高语音质量:将时域信号转换为频域,然后处理频谱,然后将其转换回时域。我们的目的在于增加振幅,改善语音质量,确保音频没有削波或失真。将产生的时域信号另存为WAV(16位...原创 2020-03-28 14:40:13 · 6013 阅读 · 1 评论 -
音频处理四:(音频的分帧)
程序设计四:音频的分帧一:需求分析为了分析读人数据,通常进行分帧处理。在分帧中,往往设置在相邻两帧之间有一部分重叠。其原因是:语音信号是时变的,在短时范围内特征变化较小,所以作为稳态来处理;但超出这短时范围语音信号就有变化了。在相邻两帧之间基音发生了变化,如正好是两个音节之间, 或正好是声母向韵母过渡,等等,这时,其特征参数有可能变化较大,但为了使特征参数平滑地变化,在两个不重叠的帧之间插一些...原创 2020-03-28 14:37:53 · 4299 阅读 · 1 评论 -
音频处理三:(音频数据转wav文件)
程序三:音频数据转wav文件完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48一:需求分析文本音频数据转wav文件,并进行测试txt2wav -i wavtxt.txt -o yyy.wav -rate 16000 -depth 16将本地的采样数据.txt读出,重新生成wav文件,需要考虑单声道...原创 2020-03-28 14:32:13 · 2288 阅读 · 6 评论 -
音频处理二:(左右声道分离)
程序设计二完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48一:需求分析实现语音左右声道数据分离wav2txt -i xxx.wav -o yyy.txt (-R/-L/-all/-mix)将输入文件xxx.wav的采样数据读出保存在文本文件yyy.txt中。如无-o项则输出到屏幕上。yyy.txt...原创 2020-03-28 14:28:52 · 6572 阅读 · 0 评论 -
音频处理一:(音频基本信息)
程序设计一:音频基本信息完整工程文件:链接:https://pan.baidu.com/s/1dcoTGhIeDxsRz-RUr2Paxw 提取码:jy48一:需求分析wavinfo.exe waeinfo.py输入:wavinfo -i xxx.wav -o output.txt输出:(格式规范)xxx=yyyrate(Hz)=16000length=32000ch=2...原创 2020-03-28 14:23:17 · 828 阅读 · 0 评论 -
音频录入后以不同采样率输出
自行录制一段语音,并存储为wav文件存储为wav文件时,分别以采样频率、2倍采样频率和1/2采样频率存为三个wav文件,并将plot函数结合subplot函数在一幅图上显示3个波形横轴和纵轴带有标注。横轴的单位为秒(s),纵轴显示的为归一化后的数值1.matlab代码clear allclc%初始化fs=8000;duration=2;n=duration*...原创 2019-08-31 16:08:55 · 2859 阅读 · 6 评论 -
Matlab进行录制、存储、绘制、读取音频
clear allclcmusic=audiorecorder(11025,16,2);%创建一个保存音频信息的对象,它包含采样率,时间和录制的音频信息等等。%44100表示采样为44100Hz(可改为8000, 11025, 22050等,%此数值越大,录入的声音质量越好,相应需要的存储空间越大)%16为用16bits存储,2为两通道即立体声(也可以改为1即单声道)。record...原创 2019-08-31 13:04:05 · 10853 阅读 · 6 评论 -
基于FFT的信号频谱分析
设计要求用MATLAB产生正弦波及白噪声信号,并显示各自时域波形图。进行FFT变换,显示各自频谱图。做出两种种信号的均方根图谱,功率图谱,以及对数方均根图谱。用IFFT傅里叶反变换恢复信号,并显示时域波形图正弦波的信号频谱分析正弦波源代码clear allclc%*************************生成正弦信号************************% ...原创 2019-08-30 10:47:31 · 4861 阅读 · 0 评论