语音识别
welen_flying
本人对语音、音频信号处理非常感兴趣。主要涉及:语音和音频处理;音效;去噪和回声消除;机器学习和算法优化。
展开
-
GMM简单解释
1.GMM(guassian mixture model) 混合高斯模型,顾名思义,就是用多个带有权重的高斯密度函数来描述数据的分布情况。理论上来说,高斯分量越多,极值点越多,混合高斯密度函数可以逼近任意概率密度函数,刻画模型越精确,需要的训练数据也就越多。2.GMM模型初始化: 即模型参数的初始化,一般采用kmeans或者LBG算法。模型初始化值对模型原创 2014-08-05 18:19:06 · 5664 阅读 · 0 评论 -
VQ结合SVM分类方法
今天整理资料时,发现了在学校时做的这个实验,当时整个过程过重偏向依赖分类器方面,而又很难对分类器本身性能进行一定程度的改良,所以最后没有选用这个方案,估计以后也不会接触这类机器学习的东西了,希望它对刚入门的人有点用。 SVM比较适合高维数据的二分类,本来准备对语音特征直接用SVM进行二分类,但是发现样本数据比较多,训练的2天都没有出收敛,最后想用VQ聚类的方法先抽取出具有代原创 2014-08-12 12:46:28 · 2056 阅读 · 0 评论 -
MFCC可视化
大多数文章和博客介绍都是MFCC的算法流程,物理意义,这里仅仅从数据分布可视化的角度,清晰观察MFCC特征在空间中的分布情况,加深理解。MFCC处理流程:MFCC参数的提取包括以下几个步骤:(选自百度百科) 1.预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。 2.A/D变换:8kHz的采样频率,12bit的线性量化精度。原创 2014-11-14 11:18:10 · 3279 阅读 · 2 评论 -
MFCC特征提取(C语言版本)
音频分析中,MFCC参数是经典参数之一。之前对于它的计算流程和原理,大体上是比较清楚的,所以仿真的时候,都是直接调用matlab的voicebox工具或者开发的时候直接调用第三方库。最近想整理一个纯C语言版本的MFCC函数,发现第三方开源的一部分是C++的,有些纯C的开源代码是针对语音固定了某些参数,不太灵活。干脆自己动手写一下,发现matlab写习惯了,都弱化了写C的思维,磕磕碰碰弄了2天,初版原创 2015-05-28 19:39:06 · 16870 阅读 · 22 评论 -
SVM matlab 代码详解说明
x=[0 1 0 1 2 -1];y=[0 0 1 1 2 -1];z=[-1 1 1 -1 1 1];%其中,(x,y)代表二维的数据点,z 表示相应点的类型属性。data=[1,0;0,1;2,2;-1,-1;0,0;1,1];% (x,y)构成的数据点groups=[1;1;1;1;-1;-1];%各个数据点的标签figure;subplot(2,2,1);Struct1 =原创 2017-02-20 23:18:58 · 12455 阅读 · 1 评论 -
DTW算法理解
dtw路径与线性变换路径对比 在孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。参考模板,可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序原创 2017-02-20 23:20:19 · 7905 阅读 · 0 评论 -
深度学习语音降噪总结
实时语音通信发展到今天,用户对通话语音质量提出了越来越高的要求。由于终端设备的多样性以及使用场景的差异,声音问题依然存在。传统的音频处理技术从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费力。随着AI技术的发展,凭借着其强大的拟合能力,利用数据驱动,为改善音频体验提供了更多的可能性。 关于理论部分,包括论文有很多,每种想...原创 2019-03-14 14:32:03 · 15162 阅读 · 9 评论 -
语音识别的降噪思路和总结
噪声问题一直是语音识别的一个老大难的问题,在理想的实验室的环境下,识别效果已经非常好了,之前听很多音频算法工程师抱怨,在给识别做降噪时,经常发现WER不降反升,降低了识别率,有点莫名其妙,又无处下手。 刚好,前段时间调到了AIlab部门,有机会接触这块,改善语音识别的噪声问题,虽然在此之前,询问过同行业的朋友,单通道近场下,基本没有太大作用,有时反而起到反作用,但是自己还是想亲身实践一下,至...原创 2019-03-13 16:31:16 · 13303 阅读 · 8 评论